蘋果公司近日發(fā)布了一項(xiàng)重要研究成果——名為《Pico-Banana-400K:面向文本引導(dǎo)圖像編輯的大規(guī)模數(shù)據(jù)集》的全新數(shù)據(jù)集。該數(shù)據(jù)集包含40萬張經(jīng)過精心編輯的圖像,旨在為文本引導(dǎo)的圖像編輯模型提供高質(zhì)量的訓(xùn)練和評(píng)測(cè)資源。與以往數(shù)據(jù)集不同,Pico-Banana-400K采用非商業(yè)性研究許可發(fā)布,允許全球研究人員和學(xué)術(shù)機(jī)構(gòu)自由使用,但禁止用于商業(yè)用途。
近年來,圖像生成與編輯技術(shù)取得了顯著進(jìn)展,但開放研究仍面臨諸多挑戰(zhàn)。蘋果研究團(tuán)隊(duì)指出,現(xiàn)有數(shù)據(jù)集普遍存在三大問題:一是依賴專有模型生成的合成數(shù)據(jù),二是僅包含有限的人工篩選子集,三是存在領(lǐng)域偏移、編輯類型分布不均以及質(zhì)量控制不一致等問題。這些問題嚴(yán)重制約了魯棒圖像編輯模型的發(fā)展。為突破這一瓶頸,蘋果團(tuán)隊(duì)決定構(gòu)建一個(gè)更全面、更具代表性的圖像編輯數(shù)據(jù)集。
Pico-Banana-400K的構(gòu)建過程嚴(yán)謹(jǐn)而系統(tǒng)。研究團(tuán)隊(duì)首先從OpenImages數(shù)據(jù)集中精選了大量真實(shí)照片,確保內(nèi)容涵蓋人物、物體及含文字場(chǎng)景等多樣化元素。隨后,他們?cè)O(shè)計(jì)了35種不同類型的圖像修改指令,并將其歸入八大類別,包括像素與光度調(diào)整(如添加復(fù)古濾鏡)、以人為中心的編輯(如將人物轉(zhuǎn)換為玩具形象)、場(chǎng)景構(gòu)成與多主體編輯(如改變天氣條件)、對(duì)象級(jí)語義修改(如移動(dòng)物體位置)以及圖像縮放(如放大畫面)等。
在編輯過程中,研究人員將原始圖像與編輯指令輸入谷歌的Gemini 2.5-Flash-Image模型(也被稱為Nanon-Banana)進(jìn)行圖像編輯。該模型在圖像編輯任務(wù)中表現(xiàn)出色,被廣泛認(rèn)為是當(dāng)前最先進(jìn)的模型之一。生成結(jié)果隨后交由Gemini 2.5-Pro模型進(jìn)行自動(dòng)評(píng)估,只有準(zhǔn)確遵循指令且具備良好視覺質(zhì)量的圖像才會(huì)被納入最終數(shù)據(jù)集。這一雙重驗(yàn)證機(jī)制確保了數(shù)據(jù)集的高質(zhì)量。
Pico-Banana-400K不僅包含單輪編輯的樣本,還涵蓋了多輪連續(xù)編輯序列以及“偏好對(duì)”樣本。后者通過對(duì)比成功與失敗的編輯結(jié)果,幫助模型學(xué)習(xí)區(qū)分理想與不良輸出。這種設(shè)計(jì)使得數(shù)據(jù)集更具實(shí)用性和訓(xùn)練價(jià)值。盡管研究團(tuán)隊(duì)承認(rèn)Nanon-Banana在精細(xì)空間控制、布局外推和文字排版處理方面仍存在局限,但他們強(qiáng)調(diào),Pico-Banana-400K的目標(biāo)是為下一代文本引導(dǎo)圖像編輯模型提供一個(gè)堅(jiān)實(shí)、可復(fù)現(xiàn)的基礎(chǔ)。
目前,相關(guān)研究論文已發(fā)布于預(yù)印本平臺(tái)arXiv,完整的Pico-Banana-400K數(shù)據(jù)集也已在GitHub上向全球研究者免費(fèi)開放。這一舉措有望推動(dòng)圖像編輯領(lǐng)域的研究進(jìn)展,為開發(fā)更智能、更高效的圖像編輯工具奠定基礎(chǔ)。











