蘋果推出Pico-Banana-400K數(shù)據(jù)集，為文本引導(dǎo)圖像編輯模型提供優(yōu)質(zhì)訓(xùn)練資源

時間：2025-10-29 14:05:00 來源：快訊編輯：快訊 IP：北京 發(fā)表評論無障礙通道

蘋果公司近日宣布推出一項名為《Pico-Banana-400K：面向文本引導(dǎo)圖像編輯的大規(guī)模數(shù)據(jù)集》的研究成果，并同步公開了包含40萬張圖像的完整數(shù)據(jù)集。該數(shù)據(jù)集采用非商業(yè)性研究許可協(xié)議發(fā)布，允許全球?qū)W術(shù)機構(gòu)和研究人員自由使用，但明確禁止商業(yè)用途。這一舉措旨在解決當(dāng)前圖像編輯領(lǐng)域數(shù)據(jù)集質(zhì)量參差不齊、共享性受限等核心問題。

研究團(tuán)隊指出，盡管近年來圖像生成與編輯技術(shù)取得顯著突破，但開放研究仍面臨關(guān)鍵瓶頸。現(xiàn)有數(shù)據(jù)集普遍存在三大缺陷：依賴專有模型生成的合成數(shù)據(jù)、人工篩選子集規(guī)模有限、以及領(lǐng)域偏移與質(zhì)量控制不一致等問題。這些缺陷直接導(dǎo)致魯棒圖像編輯模型的開發(fā)受阻。為突破這一局限，蘋果團(tuán)隊歷時數(shù)月構(gòu)建了Pico-Banana-400K數(shù)據(jù)集。

該數(shù)據(jù)集的構(gòu)建流程體現(xiàn)了嚴(yán)格的篩選機制。研究人員首先從OpenImages數(shù)據(jù)集中精選涵蓋人物、物體及文字場景的多樣化真實照片，隨后設(shè)計了35類圖像修改指令，并劃分為八大編輯類別。具體包括像素與光度調(diào)整（如添加復(fù)古濾鏡）、以人為中心的編輯（如生成Funko-Pop風(fēng)格形象）、場景構(gòu)成編輯（如天氣條件變換）、對象級語義修改（如物體空間關(guān)系調(diào)整）等。

在技術(shù)實現(xiàn)層面，團(tuán)隊采用谷歌的Gemini-2.5系列模型完成核心工作。每張原始圖像與編輯指令輸入至Nanon-Banana模型（即Gemini 2.5-Flash-Image）生成編輯結(jié)果后，需通過Gemini 2.5-Pro模型的雙重驗證：評估編輯是否精準(zhǔn)遵循指令，并確保視覺質(zhì)量達(dá)標(biāo)。只有通過嚴(yán)格篩選的樣本才會被納入最終數(shù)據(jù)集。

數(shù)據(jù)集的創(chuàng)新性體現(xiàn)在其結(jié)構(gòu)設(shè)計上。除包含單輪編輯樣本外，還首次引入多輪連續(xù)編輯序列，模擬真實場景中的漸進(jìn)式修改需求。更值得關(guān)注的是"偏好對"樣本的收錄——通過對比成功與失敗的編輯結(jié)果，為模型提供區(qū)分優(yōu)質(zhì)輸出的學(xué)習(xí)范例。這種設(shè)計有助于提升下一代文本引導(dǎo)圖像編輯模型的判斷能力。

研究團(tuán)隊坦承，當(dāng)前使用的Nanon-Banana模型在精細(xì)空間控制、布局外推及文字排版處理方面仍存在改進(jìn)空間。但他們強調(diào)，Pico-Banana-400K的核心價值在于為行業(yè)提供首個可復(fù)現(xiàn)、高質(zhì)量的訓(xùn)練與評測基準(zhǔn)。目前，相關(guān)研究論文已上線預(yù)印本平臺arXiv，完整數(shù)據(jù)集則在GitHub平臺向全球研究者開放下載。

與 iPad Air 類似，計劃于 2026 年春季更新的 MacBook Air 也將繼續(xù)采用 LCD 屏幕。該博文指出蘋果的 OLED屏幕部署策略呈現(xiàn)出清晰的梯隊化特征：高端的 Pro 系列率先完成…

快科技10月29日消息，據(jù)媒體報道，蘋果正在研發(fā)搭載OLED顯示屏的iPad mini、iPad Air、MacBook Pro和MacBookAir機型，蘋果已在iPad Pro中采用OLED屏，并計劃在…

此前的一份消息曾顯示，三星電子對其首款三折疊智能手機的產(chǎn)能規(guī)劃約 5 萬臺，僅是初代折疊屏產(chǎn)品 Galaxy Fold 的 1/10。同時，Galaxy Z Fold 8 是否能夠重新支持 S Pen 手…

今年 6 月有消息稱，富士康與英偉達(dá)正在洽談將人形機器人引入休斯頓工廠，計劃在 2026 年第一季度投入使用。綜合IT之家此前報道，今年 6 月的消息稱，富士康正與英偉達(dá)聯(lián)合開發(fā)自研人形機器人，并已測試中…

AI換臉檢測、通話反詐及3D人臉識別等功能，為用戶提供多層防護(hù)，使設(shè)備在智能化體驗的同時保證信息安全，這也讓榮耀Magic8成為2025最值得買的手機。榮耀Magic8不僅滿足日常使用，更提升了創(chuàng)作與娛樂體驗…

2025年10月23日，在榮耀全球開發(fā)者大會暨AI終端生態(tài)大會上，榮耀對“自進(jìn)化AI智能體操作系統(tǒng)” MagicOS10展開了深度分享，全新的榮耀MagicOS 10是榮耀對“AI時代操作系統(tǒng)”這一命題交…

一加這款中端新機更為激進(jìn)，定價比上代上漲了三百元，不過綜合配置也有大幅提升，雖然影像上沒有怎么提升，但在核心方面提升不少，性能與續(xù)航的實力在同檔手機中應(yīng)該能說是更突出的，再加上補齊超聲波指紋和滿級防水，核心…

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级

蘋果推出Pico-Banana-400K數(shù)據(jù)集，為文本引導(dǎo)圖像編輯模型提供優(yōu)質(zhì)訓(xùn)練資源