蘋果公司近日宣布推出一項名為《Pico-Banana-400K:面向文本引導(dǎo)圖像編輯的大規(guī)模數(shù)據(jù)集》的研究成果,并同步公開了包含40萬張圖像的完整數(shù)據(jù)集。該數(shù)據(jù)集采用非商業(yè)性研究許可協(xié)議發(fā)布,允許全球?qū)W術(shù)機構(gòu)和研究人員自由使用,但明確禁止商業(yè)用途。這一舉措旨在解決當(dāng)前圖像編輯領(lǐng)域數(shù)據(jù)集質(zhì)量參差不齊、共享性受限等核心問題。
研究團(tuán)隊指出,盡管近年來圖像生成與編輯技術(shù)取得顯著突破,但開放研究仍面臨關(guān)鍵瓶頸。現(xiàn)有數(shù)據(jù)集普遍存在三大缺陷:依賴專有模型生成的合成數(shù)據(jù)、人工篩選子集規(guī)模有限、以及領(lǐng)域偏移與質(zhì)量控制不一致等問題。這些缺陷直接導(dǎo)致魯棒圖像編輯模型的開發(fā)受阻。為突破這一局限,蘋果團(tuán)隊歷時數(shù)月構(gòu)建了Pico-Banana-400K數(shù)據(jù)集。
該數(shù)據(jù)集的構(gòu)建流程體現(xiàn)了嚴(yán)格的篩選機制。研究人員首先從OpenImages數(shù)據(jù)集中精選涵蓋人物、物體及文字場景的多樣化真實照片,隨后設(shè)計了35類圖像修改指令,并劃分為八大編輯類別。具體包括像素與光度調(diào)整(如添加復(fù)古濾鏡)、以人為中心的編輯(如生成Funko-Pop風(fēng)格形象)、場景構(gòu)成編輯(如天氣條件變換)、對象級語義修改(如物體空間關(guān)系調(diào)整)等。
在技術(shù)實現(xiàn)層面,團(tuán)隊采用谷歌的Gemini-2.5系列模型完成核心工作。每張原始圖像與編輯指令輸入至Nanon-Banana模型(即Gemini 2.5-Flash-Image)生成編輯結(jié)果后,需通過Gemini 2.5-Pro模型的雙重驗證:評估編輯是否精準(zhǔn)遵循指令,并確保視覺質(zhì)量達(dá)標(biāo)。只有通過嚴(yán)格篩選的樣本才會被納入最終數(shù)據(jù)集。
數(shù)據(jù)集的創(chuàng)新性體現(xiàn)在其結(jié)構(gòu)設(shè)計上。除包含單輪編輯樣本外,還首次引入多輪連續(xù)編輯序列,模擬真實場景中的漸進(jìn)式修改需求。更值得關(guān)注的是"偏好對"樣本的收錄——通過對比成功與失敗的編輯結(jié)果,為模型提供區(qū)分優(yōu)質(zhì)輸出的學(xué)習(xí)范例。這種設(shè)計有助于提升下一代文本引導(dǎo)圖像編輯模型的判斷能力。
研究團(tuán)隊坦承,當(dāng)前使用的Nanon-Banana模型在精細(xì)空間控制、布局外推及文字排版處理方面仍存在改進(jìn)空間。但他們強調(diào),Pico-Banana-400K的核心價值在于為行業(yè)提供首個可復(fù)現(xiàn)、高質(zhì)量的訓(xùn)練與評測基準(zhǔn)。目前,相關(guān)研究論文已上線預(yù)印本平臺arXiv,完整數(shù)據(jù)集則在GitHub平臺向全球研究者開放下載。








