螞蟻集團旗下Inclusion AI團隊近日宣布一項突破性研究成果——Ming-UniVision系統,該系統通過統一視覺表示技術實現了圖像理解與生成的無縫融合。相關論文《Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer》已發表于學術平臺arXiv,代碼與模型同步開源至GitHub和HuggingFace。
傳統AI處理視覺任務時面臨根本性矛盾:理解圖像需要提取"這是一只橘貓坐在沙發上"的高層語義,而生成圖像則需精確控制每個像素的色彩與紋理。這種差異導致系統需要同時維護兩套獨立架構——CLIP類模型處理語義理解,VAE類工具負責像素重建。雙系統并行不僅增加計算復雜度,更在多輪交互時引發質量衰減,如同在不同語言間反復翻譯導致信息丟失。
研究團隊提出的MingTok技術徹底改變了這一局面。該技術采用三階段順序架構:首先通過低層編碼器將512×512像素圖像壓縮為256個連續token,壓縮比達32倍;隨后語義解碼器以自回歸方式將緊湊潛在序列擴展為高維語義特征;最終像素解碼器結合像素反混洗層重建圖像,顯著提升邊緣清晰度。這種設計使單一系統既能解析圖像內容,又能根據文字描述生成新圖像。
實驗數據顯示,MingTok在32倍壓縮下仍保持0.54的rFID和30.77dB的PSNR值,聯合訓練后LPIPS指標降至0.12。在Geneval基準測試中,系統在位置控制(0.92)、顏色控制(0.93)等子任務超越所有對比模型,證明共享語義空間對圖像合成的有效引導作用。研究團隊特別強調,統一表示使理解任務性能提升12%,生成任務收斂速度加快40%。
Ming-UniVision系統的核心突破在于多輪交互能力。用戶可先要求生成草原風景圖,接著指令"將云朵改為紫色",再添加"三只奔跑的梅花鹿",整個過程在潛在空間直接完成修改,無需返回像素空間重建。這種"就地迭代"機制通過保持語義特征上下文實現,相比傳統方法減少83%的計算開銷。測試顯示,系統在五輪連續編輯后仍保持91%的語義一致性,而分離架構系統在此場景下質量衰減超過35%。
研究團隊開發的"視覺化思維鏈"技術進一步提升了交互透明度。當用戶提出"把人物襯衫換成藍色"時,系統會先生成帶彩色高亮區域的中間圖像,標記出修改范圍后再執行操作。這種端到端視覺推理框架使編輯歧義減少62%,在GEdit-Bench-EN測試中,語義一致性評分達8.7分(滿分10分),較單步基線提升0.5分。
技術實現的關鍵在于多階段訓練策略。預訓練階段首先預熱MLP連接層和視覺頭,使用30%理解任務與70%生成任務的混合數據;隨后解鎖語言模型進行聯合訓練,引入混合分辨率機制——理解任務采用1024×1024輸入增強細節感知,生成任務保持512×512確保效率。監督微調階段通過構建指令鏈數據,使模型掌握迭代編輯、細化等復雜操作,最終在55%編輯任務、35%生成任務和15%理解任務的數據分布下達到最優平衡。
盡管系統在標準測試中表現優異,研究團隊坦言仍存在兩大挑戰。其一,缺乏大規模交錯預訓練導致細粒度編輯能力受限,當前每token承載過多視覺細節,使小范圍修改可能引發意外變化。其二,多輪交互的概括性不足,模型在超過訓練序列長度的編輯任務中性能下降18%。針對這些問題,團隊計劃探索更低壓縮比的標記化方案,并構建包含更長交互序列的訓練數據集。
這項研究為多模態AI發展開辟了新路徑。通過統一視覺語言,系統不僅簡化了架構復雜度,更創造出自然流暢的人機協作模式。用戶可像與藝術家對話般連續提出修改要求,AI則能準確理解意圖并逐步完善作品。隨著技術迭代,這種統一建模方法有望推動內容創作、醫療影像分析、自動駕駛等領域的范式變革。











