人工智能領(lǐng)域迎來(lái)重要突破,智源研究院近日正式推出“悟界 EMU3.5”多模態(tài)世界大模型。這一成果被視為行業(yè)邁向新階段的關(guān)鍵標(biāo)志,尤其在大語(yǔ)言模型文本能力發(fā)展趨緩、尋求新突破的背景下,多模態(tài)技術(shù)成為備受矚目的方向。
多模態(tài)技術(shù)發(fā)展面臨的核心難題,是如何有效融合文本、圖像、視頻等不同類型的數(shù)據(jù)。目前行業(yè)內(nèi)存在兩條主要技術(shù)路徑:一條是DiT架構(gòu),在文生圖、文生視頻等生成任務(wù)中表現(xiàn)優(yōu)異;另一條是以智源Emu系列為代表的“原生多模態(tài)”架構(gòu),試圖從基礎(chǔ)層面構(gòu)建統(tǒng)一處理所有模態(tài)的模型。
EMU3.5的發(fā)布被認(rèn)為開啟了人工智能從“語(yǔ)言學(xué)習(xí)”向“多模態(tài)世界學(xué)習(xí)”轉(zhuǎn)變的新紀(jì)元。該模型在技術(shù)路徑上延續(xù)了Emu系列的原生多模態(tài)理念,采用統(tǒng)一的自回歸架構(gòu),將文本、圖像、視頻等數(shù)據(jù)統(tǒng)一轉(zhuǎn)化為Token進(jìn)行預(yù)測(cè)。這種設(shè)計(jì)在理論上實(shí)現(xiàn)了模態(tài)統(tǒng)一,但過(guò)去面臨推理效率低下的問(wèn)題——生成圖像時(shí)需逐個(gè)Token輸出,速度遠(yuǎn)慢于并行生成的Diffusion模型。
為解決這一瓶頸,研發(fā)團(tuán)隊(duì)提出“DiDA(離散擴(kuò)散自適應(yīng))”技術(shù)。這項(xiàng)創(chuàng)新允許自回歸模型在推理階段并行預(yù)測(cè)大規(guī)模Token,顯著提升生成效率。據(jù)測(cè)試,在保持性能不變的前提下,圖像生成速度提升近20倍,首次使自回歸架構(gòu)達(dá)到與頂尖閉源擴(kuò)散模型相當(dāng)?shù)乃健_@一突破為原生多模態(tài)路線的實(shí)際應(yīng)用掃清了關(guān)鍵障礙。
效率問(wèn)題解決后,規(guī)模化發(fā)展成為可能。EMU3.5通過(guò)大幅增加模型參數(shù)和訓(xùn)練數(shù)據(jù)驗(yàn)證了多模態(tài)領(lǐng)域的“規(guī)模定律”:參數(shù)規(guī)模從80億躍升至340億,訓(xùn)練視頻數(shù)據(jù)時(shí)長(zhǎng)從15年增至790年。基于這一實(shí)踐,研發(fā)團(tuán)隊(duì)提出“第三種Scaling范式”,其核心優(yōu)勢(shì)包括:統(tǒng)一的自回歸架構(gòu)為規(guī)模化提供基礎(chǔ);可復(fù)用現(xiàn)有語(yǔ)言模型訓(xùn)練基礎(chǔ)設(shè)施;首次在多模態(tài)領(lǐng)域引入大規(guī)模強(qiáng)化學(xué)習(xí)技術(shù)。
該模型的技術(shù)升級(jí)不僅體現(xiàn)在規(guī)模擴(kuò)張,更在于核心范式的轉(zhuǎn)變——從“預(yù)測(cè)下一個(gè)Token”升級(jí)為“預(yù)測(cè)下一個(gè)狀態(tài)”。這一轉(zhuǎn)變要求模型理解事物背后的因果關(guān)系和物理規(guī)律,而非簡(jiǎn)單續(xù)寫數(shù)據(jù)。例如,當(dāng)輸入“疊衣服”指令時(shí),模型能生成包含完整步驟的機(jī)器人操作序列;在圖案推理任務(wù)中,模型需先理解規(guī)律才能生成正確結(jié)果;面對(duì)建筑正面圖轉(zhuǎn)換俯視圖的需求,模型需構(gòu)建三維空間關(guān)系模型。
這種“預(yù)測(cè)狀態(tài)”的能力為具身智能發(fā)展提供了新路徑。當(dāng)前機(jī)器人訓(xùn)練面臨真實(shí)數(shù)據(jù)匱乏的困境,而EMU3.5可通過(guò)模擬物理世界生成高質(zhì)量訓(xùn)練數(shù)據(jù)。測(cè)試顯示,在未見(jiàn)過(guò)的新場(chǎng)景中,搭載該模型的機(jī)器人任務(wù)成功率從0%提升至70%,表明其具備理解、規(guī)劃和泛化的核心智能,可擔(dān)任具身智能的“大腦”角色。











