在近期舉辦的智能未來行業(yè)峰會上,浙江大學(xué)研究員、螞蟻集團(tuán)技術(shù)專家趙俊博提出,擴(kuò)散架構(gòu)正成為語言模型領(lǐng)域的新探索方向。與主流自回歸模型不同,擴(kuò)散架構(gòu)通過"完形填空"機(jī)制實現(xiàn)文本生成,在推理階段可直接修改中間token,無需像自回歸模型那樣重新生成整段內(nèi)容。這種特性使其在生成速度和計算成本上具備潛在優(yōu)勢。
研究團(tuán)隊發(fā)布的千億參數(shù)規(guī)模模型LLaDA 2.0,成為擴(kuò)散語言模型發(fā)展的重要里程碑。該模型采用混合注意力機(jī)制,在區(qū)塊間保留自回歸約束的同時實現(xiàn)內(nèi)部并行解碼。實驗數(shù)據(jù)顯示,在相同計算量條件下,擴(kuò)散模型所需參數(shù)規(guī)模比自回歸模型減少30%以上,且能持續(xù)吸收訓(xùn)練數(shù)據(jù),突破傳統(tǒng)模型在多個訓(xùn)練周期后的性能瓶頸。
技術(shù)實現(xiàn)層面,研究團(tuán)隊攻克了多重挑戰(zhàn)。通過設(shè)計動態(tài)注意力掩碼,模型同時支持全局注意力捕捉長程依賴和因果注意力維持序列連貫性。針對長文本處理,團(tuán)隊引入幾何加權(quán)方法和分塊擴(kuò)散策略,優(yōu)化了文本與文檔的注意力計算效率。開源的訓(xùn)練框架已集成5D并行計算和靈活注意力適配模塊,支持監(jiān)督微調(diào)和直接偏好優(yōu)化等訓(xùn)練范式。
實際應(yīng)用測試中,擴(kuò)散模型展現(xiàn)出獨(dú)特優(yōu)勢。在代碼生成任務(wù)中,其并行解碼特性使模型能同時輸出多個token,類似編程工具的自動補(bǔ)全功能。文學(xué)創(chuàng)作測試顯示,模型會先構(gòu)建文本框架,再通過多輪迭代優(yōu)化中間內(nèi)容,這種非線性的生成軌跡與傳統(tǒng)模型形成鮮明對比。視頻演示表明,在全局注意力支持下,擴(kuò)散模型在語義理解任務(wù)上達(dá)到更高準(zhǔn)確率。
該領(lǐng)域已吸引科技巨頭和初創(chuàng)公司競相布局。谷歌推出的Gemini Diffusion、字節(jié)跳動的相關(guān)項目,以及美國初創(chuàng)公司Mercury系列均驗證了技術(shù)可行性。研究團(tuán)隊坦言,擴(kuò)散語言模型在訓(xùn)練推理層面仍處早期階段,其擴(kuò)展規(guī)律與自回歸模型存在本質(zhì)差異。當(dāng)參數(shù)規(guī)模突破千億后,模型將面臨新的工程挑戰(zhàn),這需要整個技術(shù)社區(qū)共同探索解決方案。
目前研究團(tuán)隊已開放技術(shù)報告和模型代碼,并與模型接入平臺合作推出部分API服務(wù)。雖然當(dāng)前模型規(guī)模尚未達(dá)到主流水平,但開源社區(qū)的活躍參與正在加速技術(shù)迭代。這種不同于自回歸模型的生成范式,正在為語言處理領(lǐng)域開辟新的技術(shù)路徑。











