最近,AI圖像生成與編輯領域迎來了一次重要突破。一款名為DreamOmni2的新模型開源發布,迅速引發海外創作者社區的廣泛關注和討論。這款由香港科技大學賈佳亞教授團隊研發的模型,被認為有望將多模態圖像編輯與生成技術推向新的高度。
隨著谷歌Nano Banana、字節Seedream4.0和阿里Qwen-Image-Edit-2509等模型的出現,圖像編輯領域進入了一個新的發展階段。這些模型不僅支持OOTD穿搭生成、文字渲染和電影分鏡制作,還讓創作者無需掌握復雜的修圖技巧,就能實現更具創意和產品價值的圖像生成。
然而,現有模型在實際應用中仍存在一些局限。例如,語言指令有時無法準確描述需求,需要結合參考圖像和額外說明;在處理抽象概念如發型、妝容、紋理等時,表現往往不盡如人意。這些問題促使研究人員探索更優的技術解決方案。
DreamOmni2的推出正是為了解決這些痛點。該模型基于FLUX-Kontext架構訓練,不僅保留了原有的指令編輯和文生圖能力,還創新性地增加了多參考圖生成編輯功能,為創作者提供了更高的靈活性和創意空間。據團隊介紹,無論是具體物體還是抽象概念的編輯與生成,DreamOmni2的表現都顯著優于當前最先進的開源模型,甚至在某些方面超越了Nano Banana。
在實際測試中,DreamOmni2展現了強大的能力。當要求將一張熊貓圖片的背景替換為另一張圖片時,模型迅速生成了符合要求的證件照,毛發細節處理得當,效果堪比專業修圖。更復雜的是風格遷移任務,模型能準確捕捉參考圖的色調和氛圍,并將其自然融入原圖。
與GPT-4o和Nano Banana等主流模型的對比測試顯示,DreamOmni2在處理復雜指令時表現更為出色。例如,在將一張圖片中的夾克替換為另一張圖片中的衣服時,DreamOmni2不僅準確完成了替換,還自然保留了人物特征,只有衣領部分略有出入。相比之下,GPT-4o生成的結果顯得不自然,人物比例失調;Nano Banana雖然整體效果不錯,但衣物顏色和形態發生了變化,logo也消失了。
DreamOmni2的另一大亮點是其多模態生成能力。在測試中,模型成功將一張圖片中的徽標印在另一張圖片的物體上,并自然放置在桌面上,光影效果處理得當。更令人印象深刻的是,根據手繪草圖生成相同姿態圖片的任務中,DreamOmni2能準確捕捉草圖中的姿態信息,將其轉化為自然的人物動作。
這些優異表現的背后,是賈佳亞團隊在數據構建、框架設計和訓練策略上的創新。團隊提出了三階段式數據構建范式,通過特征混合、真實數據與模型自生數據的結合,解決了多模態訓練中抽象概念稀缺和缺乏參考圖像條件的問題。同時,團隊對模型框架進行了針對性修改,添加索引編碼到位置通道,有效緩解了復制粘貼和像素混淆現象。
在訓練優化方面,團隊提出了VLM和生成模型聯合訓練的機制,使模型能更好地理解復雜用戶指令。通過LoRA方法分別訓練編輯與生成模塊,實現了編輯與生成功能的無縫融合。這些技術創新使DreamOmni2在多模態指令編輯與生成任務中達到了新的水平。
開源兩周以來,DreamOmni2在GitHub上已獲得1.6k的Star量,受到開源社區的廣泛認可。YouTube上也出現了大量介紹和使用經驗分享的視頻,有創作者稱贊其為"King Bomb",特別肯定了其在抽象概念理解方面的能力。











