蘋果研究團(tuán)隊(duì)近日在人工智能領(lǐng)域取得重要進(jìn)展,推出多模態(tài)AI模型UniGen 1.5。該模型突破傳統(tǒng)方案局限,將圖像理解、生成與編輯三大核心功能整合至單一系統(tǒng),實(shí)現(xiàn)技術(shù)層面的重大跨越。與傳統(tǒng)依賴多個(gè)獨(dú)立模型處理不同任務(wù)的模式不同,UniGen 1.5通過(guò)統(tǒng)一架構(gòu)設(shè)計(jì),使圖像理解能力直接反哺生成環(huán)節(jié),顯著提升視覺(jué)輸出的精準(zhǔn)度。
針對(duì)圖像編輯領(lǐng)域長(zhǎng)期存在的指令理解難題,研究團(tuán)隊(duì)創(chuàng)新提出“編輯指令對(duì)齊”技術(shù)。該技術(shù)通過(guò)引入中間預(yù)測(cè)環(huán)節(jié),要求模型先根據(jù)原始圖像和用戶指令生成目標(biāo)圖像的詳細(xì)文本描述,再執(zhí)行具體編輯操作。這種“先構(gòu)思后執(zhí)行”的機(jī)制迫使模型深度解析編輯意圖,有效解決了復(fù)雜指令捕捉不準(zhǔn)確的問(wèn)題。實(shí)驗(yàn)數(shù)據(jù)顯示,該技術(shù)使編輯準(zhǔn)確率得到大幅提升。
在模型訓(xùn)練機(jī)制方面,研究團(tuán)隊(duì)突破性地設(shè)計(jì)出統(tǒng)一獎(jiǎng)勵(lì)系統(tǒng)。該系統(tǒng)突破傳統(tǒng)編輯任務(wù)與生成任務(wù)獎(jiǎng)勵(lì)機(jī)制割裂的困境,通過(guò)量化評(píng)估指標(biāo)使模型在兩類任務(wù)中遵循相同質(zhì)量標(biāo)準(zhǔn)。這種創(chuàng)新設(shè)計(jì)不僅簡(jiǎn)化了訓(xùn)練流程,更顯著增強(qiáng)了模型面對(duì)不同視覺(jué)任務(wù)時(shí)的穩(wěn)定性,尤其在處理從細(xì)微調(diào)整到結(jié)構(gòu)重構(gòu)等跨度較大的編輯需求時(shí)表現(xiàn)出色。
盡管取得突破性進(jìn)展,研究團(tuán)隊(duì)在論文中客觀指出模型現(xiàn)存局限。受離散去標(biāo)記器技術(shù)限制,模型在生成圖片內(nèi)文字時(shí)易出現(xiàn)結(jié)構(gòu)錯(cuò)誤,例如字體變形或字符缺失。在特定編輯場(chǎng)景下,模型偶爾會(huì)出現(xiàn)主體特征漂移現(xiàn)象,表現(xiàn)為動(dòng)物毛發(fā)紋理改變或物體顏色偏差等問(wèn)題。這些技術(shù)短板已成為后續(xù)優(yōu)化工作的重點(diǎn)方向。
該研究成果通過(guò)構(gòu)建統(tǒng)一的多模態(tài)框架,為視覺(jué)AI領(lǐng)域提供了新的技術(shù)路徑。其創(chuàng)新的指令解析機(jī)制與獎(jiǎng)勵(lì)系統(tǒng)設(shè)計(jì),不僅提升了模型實(shí)用性,更為后續(xù)研究提供了重要參考。隨著技術(shù)持續(xù)迭代,這類集成化AI模型有望在創(chuàng)意設(shè)計(jì)、數(shù)字內(nèi)容生產(chǎn)等領(lǐng)域引發(fā)變革。










