螞蟻技術(shù)研究院近日正式發(fā)布全新離散擴散大語言模型系列——LLaDA2.0,同步公開的技術(shù)報告顯示,該系列包含100B參數(shù)的"flash"版本與16B參數(shù)的"mini"版本,成為全球首個突破百億參數(shù)的擴散語言模型。這一突破性成果標志著擴散模型在參數(shù)規(guī)模擴展領(lǐng)域取得重大進展,成功打破業(yè)界對擴散模型難以規(guī)模化應(yīng)用的固有認知。
研發(fā)團隊創(chuàng)新采用混合專家(MoE)架構(gòu),通過模塊化設(shè)計實現(xiàn)模型性能與計算效率的平衡。在訓(xùn)練策略方面,提出的Warmup-Stable-Decay(WSD)持續(xù)預(yù)訓(xùn)練方法,使新模型能夠直接繼承現(xiàn)有自回歸(AR)模型的知識體系,避免了傳統(tǒng)從頭訓(xùn)練帶來的高昂成本。配合置信度感知并行訓(xùn)練(CAP)與擴散模型專用DPO技術(shù),在保證生成質(zhì)量的同時,將推理速度提升至AR模型的2.1倍。
多維度評估數(shù)據(jù)顯示,LLaDA2.0在結(jié)構(gòu)化生成任務(wù)中表現(xiàn)尤為突出。在代碼生成、數(shù)學推理及智能體交互等場景下,其性能指標全面超越同級別AR模型,而在自然語言理解等基礎(chǔ)能力方面則與開源AR模型持平。這種"專長強化+基礎(chǔ)穩(wěn)固"的特性,為特定領(lǐng)域的大模型應(yīng)用開辟了新路徑。
為推動技術(shù)生態(tài)發(fā)展,研究院已將16B與100B兩個版本的模型權(quán)重及完整訓(xùn)練代碼開源至Huggingface平臺。開發(fā)者可通過公開資源復(fù)現(xiàn)訓(xùn)練過程,或基于現(xiàn)有模型進行二次開發(fā)。此次開源不僅降低了超大規(guī)模模型的技術(shù)門檻,更為學術(shù)界提供了研究擴散模型規(guī)模化應(yīng)用的重要樣本。











