當語言無法精準傳遞靈感時,AI能否跨越文字的局限,直接捕捉創作者心中的視覺想象?香港科技大學賈佳亞團隊最新推出的DreamOmni2模型,通過突破性的多模態編輯技術,為這一難題提供了創新解決方案。該成果在GitHub上線兩周即收獲1600顆星,引發YouTube創作者群體熱議,被視為AI圖像生成領域的里程碑。
傳統AI創作工具長期受困于指令依賴困境。當用戶試圖將照片中的背包替換為波西米亞風格圖案時,復雜紋理的語義描述往往導致結果偏差;而模仿老照片的復古光影或畫家筆觸時,現有模型更因抽象屬性處理能力不足而束手無策。DreamOmni2的突破性在于,其構建的FLUX Kontext基座模型通過多參考圖像解析機制,首次實現了對具體物體與抽象概念的同步編輯。
實測數據顯示,該模型在人物替換任務中展現出驚人精度。將賽博場景中的男性角色替換為女性形象時,生成的畫面不僅完整保留了背景光影與文字細節,更通過面部光線遷移技術,使新角色自然融入原始環境。在風格遷移測試中,模型成功將像素藝術、二次元畫風等視覺特征完整遷移,相較GPT-4o的色調復制和Nano Banana的簡單變色,展現出對藝術風格的深度理解。
技術白皮書揭示,研究團隊通過三階段數據工程構建了新型訓練范式。首先利用特征混合技術生成包含相同物體/屬性的高質量圖像對,解決數據稀缺難題;繼而開發提取-編輯雙模型架構,自動生成(源圖+指令+參考圖)→目標圖的完整訓練鏈;最終通過多參考圖像生成機制,形成覆蓋具體物體與抽象屬性的綜合數據集。這種創新方法使模型在基準測試中,抽象屬性處理得分超越GPT-4o與Nano Banana。
模型架構創新同樣引人注目。針對多圖像輸入的混淆問題,研究團隊引入索引編碼與位置偏移技術,使模型能精準區分不同參考圖像。通過視覺語言模型(VLM)與生成模型的聯合訓練機制,系統可自動將用戶模糊指令轉化為結構化操作,顯著提升真實場景下的指令理解能力。LoRA微調策略的運用,則在保持基座模型性能的同時,實現了多模態能力的無縫激活。
在四圖組合生成測試中,DreamOmni2將三位不同角色的特征與第四張圖的畫風完美融合,生成畫面中人物服飾細節、動物品種特征與藝術筆觸均得到準確呈現。這種跨圖像、跨模態的編輯能力,使設計師能直接通過視覺參考進行創作,而非依賴文字描述。YouTube教程作者評價該模型為"免費工作流中的性能王者",其多圖編輯精度已達到專業創作工具水準。





