在人工智能技術飛速發展的當下,智源研究院再次成為行業焦點。近日,智源研究院在北京成功舉辦“悟界 ? Emu系列技術交流會”,會上,智源研究院院長王仲遠與多模態大模型負責人王鑫龍共同宣布,推出具有劃時代意義的Emu3.5多模態世界大模型,這一成果標志著人工智能從單一語言學習向多模態世界學習邁出了關鍵一步。
回溯至2024年10月,智源研究院便已發布全球首個原生多模態世界模型Emu3。該模型獨辟蹊徑,僅基于下一個token預測技術,無需依賴擴散模型或組合方法,便實現了圖像、文本、視頻的深度融合與統一處理。一經問世,便在技術社區引發了廣泛關注和熱烈討論。
時隔一年,智源研究院再度發力,推出Emu3.5。此次升級,在“Next-Token Prediction”范式的基礎上,創新性地模擬人類自然學習方式,通過自回歸架構實現了對多模態序列的“Next-State Prediction (NSP)”,從而賦予模型更強大的可泛化世界建模能力。王仲遠院長表示:“Emu3驗證了自回歸架構在多模態理解與生成中的可行性,而Emu3.5則開啟了多模態Scaling的新篇章,為構建更通用、能與物理世界交互的人工智能提供了堅實路徑。”
Emu3.5的訓練過程堪稱浩大,它基于超過10萬億token的大規模多模態數據,視頻數據訓練量時長實現了從15年到790年的驚人躍升,參數量也從8B提升至34B,充分展現了原生多模態Scaling范式的巨大潛力。在推理環節,Emu3.5更是創新性地提出了“離散擴散自適應”(Discrete Diffusion Adaptation,DiDA)技術,這一高效的混合推理預測方法,在不犧牲性能的前提下,將每張圖片的推理速度提升了近20倍,首次使自回歸模型的生成效率達到了頂尖閉源擴散模型的水平。
王鑫龍進一步介紹:“EMU3.5在原生多模態的大規模預訓練、大規模強化學習和高效推理方面均取得了突破,為多模態世界模型的發展指明了一條簡單易擴展的Scaling范式。”
值得一提的是,EMU3.5模型開始展現出學習現實世界物理動態與因果關系的強大能力,為探索通用世界模型奠定了堅實基礎。該模型具備三大顯著特點:一是從意圖到規劃,能夠理解高層級的人類意圖,如“如何制作一艘宇宙飛船”或“如何做咖啡拉花”,并自主生成詳細、連貫的多步驟行動路徑;二是動態世界模擬,能夠在統一框架內無縫融合對世界的理解、規劃與模擬,預測物理動態、時空演化和長時程因果關系;三是可成為泛化交互基礎,其涌現出的因果推理和規劃能力,為AI與人類及物理環境進行泛化交互提供了關鍵的認知基礎。
在實際應用中,Emu3.5在多模態指導方面展現出卓越的時序一致性與步驟推理能力,使復雜任務的執行過程更加清晰透明。同時,其多模態敘事能力也令人矚目,能夠圍繞任意主題生成沉浸式的故事體驗,激發無限想象力。該模型還具備跨場景的具身操作能力,能夠實現泛化的動作規劃與復雜交互,并在世界探索中保持長距離一致性與可控交互,兼顧真實與虛擬的動態環境,實現自由探索與精準控制。
在圖文編輯領域,Emu3.5同樣表現出色。它既能通過自然語言實現任意指令的圖片編輯與時空變換,也能以精準、智能、可控且富有創意的方式完成文圖生成,使文字與視覺內容的融合更加自然與高保真。在基準測試中,Emu3.5的表現更是超越了眾多知名的閉源模型,彰顯了其強大的技術實力。











