人工智能圖像編輯與生成領(lǐng)域迎來重要進展,由字節(jié)跳動攜手香港中文大學、香港科技大學及香港大學共同研發(fā)的DreamOmni2系統(tǒng)正式對外開源。這一成果標志著多模態(tài)圖像處理技術(shù)邁入新階段,為智能創(chuàng)作領(lǐng)域注入創(chuàng)新活力。
該系統(tǒng)的核心突破在于實現(xiàn)了文本與圖像指令的深度融合。傳統(tǒng)模型在處理抽象概念時往往存在理解偏差,而DreamOmni2通過創(chuàng)新的多模態(tài)理解機制,能夠同時解析文字描述與參考圖像中的關(guān)鍵信息。這種交互方式使AI更接近人類合作伙伴的溝通模式,用戶無需調(diào)整表述方式即可獲得精準的編輯結(jié)果。
研發(fā)團隊構(gòu)建了獨特的三階段訓練體系。首階段通過特征提取模型解析圖像中的顯性元素與隱性屬性,為后續(xù)處理奠定基礎(chǔ);第二階段利用提取結(jié)果生成包含原始圖像、操作指令、參考樣本及目標效果的完整訓練集;最終階段通過數(shù)據(jù)增強技術(shù)擴展參考圖像庫,形成覆蓋多元場景的標準化數(shù)據(jù)集。這種分層訓練模式有效解決了多模態(tài)數(shù)據(jù)稀缺的難題。
在技術(shù)架構(gòu)層面,系統(tǒng)創(chuàng)新性地引入索引編碼與動態(tài)位置偏移機制。該設(shè)計使模型能夠精準定位多張輸入圖像的空間關(guān)系,配合視覺語言模型(VLM)的語義解析能力,形成從指令理解到圖像生成的完整閉環(huán)。實驗數(shù)據(jù)顯示,這種架構(gòu)使系統(tǒng)對復雜指令的響應(yīng)準確率提升40%以上。
性能測試表明,DreamOmni2在多模態(tài)編輯任務(wù)中展現(xiàn)出顯著優(yōu)勢。對比主流開源模型,其指令遵循準確度提高28%,生成結(jié)果的一致性提升35%,特別是在風格遷移、材質(zhì)替換等高階操作中,能有效避免傳統(tǒng)模型常見的細節(jié)失真問題。與商業(yè)解決方案相比,該系統(tǒng)在保持相近性能的同時,完全開源的特性為學術(shù)研究提供了重要基準。
此次開源不僅包含核心代碼與預訓練模型,還同步發(fā)布了完整的訓練框架與評估工具包。研究者可基于該平臺開展模型優(yōu)化、數(shù)據(jù)集擴展等二次開發(fā),推動多模態(tài)生成技術(shù)的標準化進程。行業(yè)觀察人士指出,這種開放共享模式將加速AI創(chuàng)作工具的普及,為影視制作、數(shù)字藝術(shù)等領(lǐng)域帶來新的發(fā)展機遇。














