智源研究院在北京舉辦的“悟界·Emu系列技術(shù)交流會”上,正式推出Emu3.5多模態(tài)世界大模型。這款由智源院長王仲遠(yuǎn)與多模態(tài)大模型負(fù)責(zé)人王鑫龍聯(lián)合發(fā)布的成果,標(biāo)志著人工智能從語言認(rèn)知向多模態(tài)世界建模的跨越式發(fā)展。該模型通過單一自回歸Transformer架構(gòu)實現(xiàn)端到端原生多模態(tài)訓(xùn)練,在10萬億token級數(shù)據(jù)上完成預(yù)訓(xùn)練,視頻數(shù)據(jù)訓(xùn)練時長從15年激增至790年,參數(shù)規(guī)模從80億擴(kuò)展至340億,為多模態(tài)大模型的規(guī)模化發(fā)展開辟新路徑。
技術(shù)突破方面,智源獨創(chuàng)的“離散擴(kuò)散自適應(yīng)”(DiDA)技術(shù)將圖像推理效率提升20倍,使自回歸模型首次達(dá)到閉源擴(kuò)散模型的生成速度。模型采用“預(yù)測下一個狀態(tài)”的核心訓(xùn)練目標(biāo),通過海量多模態(tài)數(shù)據(jù)自發(fā)學(xué)習(xí)物理世界的運行規(guī)律,形成對時空連續(xù)性和因果關(guān)系的內(nèi)在表征。這種非硬編碼的知識獲取方式,使Emu3.5具備長時程環(huán)境交互能力,與單純內(nèi)容生成模型形成本質(zhì)區(qū)別。
作為新一代世界模型,Emu3.5構(gòu)建了完整的預(yù)測系統(tǒng),在理解、預(yù)測、規(guī)劃三個維度形成閉環(huán)。其獨特能力體現(xiàn)在:可解析高層意圖并生成多步驟行動方案,如規(guī)劃“宇宙飛船制造流程”或“咖啡拉花步驟”;在統(tǒng)一框架內(nèi)實現(xiàn)物理動態(tài)模擬與因果關(guān)系推演;通過涌現(xiàn)的因果推理能力支持具身交互,為機器人操控提供認(rèn)知基礎(chǔ)。這些特性使模型既能生成行動指南,又具備基礎(chǔ)物理直覺,可在多場景中實現(xiàn)可控探索。
在功能表現(xiàn)上,Emu3.5展現(xiàn)出跨模態(tài)時序一致性優(yōu)勢。其多模態(tài)敘事能力可圍繞任意主題創(chuàng)建沉浸式故事體驗,具身操作模塊支持跨場景動作規(guī)劃與復(fù)雜交互。在圖文編輯領(lǐng)域,模型通過自然語言指令實現(xiàn)精準(zhǔn)時空變換,文圖生成質(zhì)量超越多數(shù)閉源模型。基準(zhǔn)測試顯示,該模型在多維度評估中均達(dá)到行業(yè)領(lǐng)先水平。
研發(fā)路徑上,智源研究院延續(xù)其創(chuàng)新定位,聚焦高校與企業(yè)未涉足的AI前沿領(lǐng)域。作為國內(nèi)最早開展大模型研究的機構(gòu),團(tuán)隊曾成功孵化悟道系列模型,培養(yǎng)眾多行業(yè)領(lǐng)軍人才。近兩年轉(zhuǎn)向多模態(tài)與物理世界AI研發(fā),基于對技術(shù)演進(jìn)趨勢的判斷,主張通過原生多模態(tài)架構(gòu)統(tǒng)一感知與生成能力。2024年發(fā)布的Emu3已驗證自回歸架構(gòu)的可行性,此次Emu3.5進(jìn)一步證明模型性能可隨數(shù)據(jù)、算力、參數(shù)規(guī)模同步提升。
王仲遠(yuǎn)在發(fā)布會上強調(diào),Emu3.5開創(chuàng)了多模態(tài)Scaling的新范式,為構(gòu)建通用世界模型提供可量化的實踐路徑。模型通過模擬人類自然學(xué)習(xí)方式,在“下一狀態(tài)預(yù)測”框架下實現(xiàn)世界建模能力的泛化。目前,智源已啟動學(xué)術(shù)合作計劃,將向科研機構(gòu)開放Emu3.5體驗版,同時通過官方渠道啟動產(chǎn)業(yè)界邀請測試,推動多模態(tài)世界模型的技術(shù)生態(tài)建設(shè)。











