蘋果公司近日推出了一項(xiàng)名為Pico-Banana-400K的圖像研究數(shù)據(jù)集,該數(shù)據(jù)集包含40萬張經(jīng)過精心編輯的圖像,旨在為文本引導(dǎo)的圖像編輯技術(shù)提供更強(qiáng)大的訓(xùn)練和評估資源。這一成果已通過預(yù)印本平臺arXiv發(fā)布,完整數(shù)據(jù)集也在GitHub上向全球研究人員開放,采用非商業(yè)性研究許可協(xié)議,允許學(xué)術(shù)機(jī)構(gòu)自由使用,但禁止商業(yè)用途。
研究團(tuán)隊(duì)指出,當(dāng)前圖像編輯領(lǐng)域雖然技術(shù)進(jìn)步顯著,但開放研究仍面臨數(shù)據(jù)集質(zhì)量不足的挑戰(zhàn)。現(xiàn)有數(shù)據(jù)集多依賴專有模型生成的合成數(shù)據(jù),或僅包含有限的人工篩選樣本,普遍存在領(lǐng)域偏差、編輯類型分布不均以及質(zhì)量控制不一致等問題,這些問題嚴(yán)重制約了魯棒圖像編輯模型的發(fā)展。為突破這一瓶頸,蘋果團(tuán)隊(duì)決定構(gòu)建一個(gè)更全面、更具代表性的數(shù)據(jù)集。
Pico-Banana-400K的構(gòu)建過程始于對OpenImages數(shù)據(jù)集中真實(shí)照片的篩選,確保樣本涵蓋人物、物體及含文字場景等多樣化內(nèi)容。研究團(tuán)隊(duì)設(shè)計(jì)了35種不同類型的圖像編輯指令,并將其歸類為八大類別,包括像素與光度調(diào)整(如添加復(fù)古濾鏡)、以人為中心的編輯(如將人物轉(zhuǎn)換為卡通風(fēng)格)、場景構(gòu)成與多主體編輯(如改變天氣條件)、對象級語義修改(如移動物體位置)、圖像縮放(如放大畫面)等。
在編輯過程中,研究人員將原始圖像與編輯指令輸入谷歌的Gemini 2.5-Flash-Image模型(也被稱為Nanon-Banana)進(jìn)行生成,隨后利用Gemini 2.5-Pro模型對結(jié)果進(jìn)行自動評估,確保編輯結(jié)果既準(zhǔn)確遵循指令,又具備良好視覺質(zhì)量。只有通過雙重驗(yàn)證的樣本才會被納入最終數(shù)據(jù)集。
該數(shù)據(jù)集不僅包含單輪編輯的樣本,還涵蓋了多輪連續(xù)編輯序列,以及“偏好對”樣本——即成功與失敗編輯結(jié)果的對比,幫助模型學(xué)習(xí)區(qū)分理想與不良輸出。這種設(shè)計(jì)使得Pico-Banana-400K能夠支持更復(fù)雜的編輯任務(wù),并為模型訓(xùn)練提供更豐富的反饋信號。
盡管研究團(tuán)隊(duì)承認(rèn)Nanon-Banana模型在精細(xì)空間控制、布局外推和文字排版處理方面仍存在局限,但他們強(qiáng)調(diào),Pico-Banana-400K的目標(biāo)是為下一代文本引導(dǎo)圖像編輯模型提供一個(gè)堅(jiān)實(shí)、可復(fù)現(xiàn)的基礎(chǔ)。通過公開這一資源,蘋果希望推動圖像編輯領(lǐng)域的技術(shù)進(jìn)步,并為研究人員提供更高效的工具,以應(yīng)對開放研究中的數(shù)據(jù)挑戰(zhàn)。











