12 月 12 日消息,螞蟻技術研究院今日宣布推出 LLaDA2.0 系列離散擴散大語言模型(dLLM),并同步公開了背后的技術報告,宣稱是“業(yè)內首個 100B 擴散語言模型”。
LLaDA2.0 包含 MoE 架構的 16B (mini)和100B (flash)兩個版本,將 Diffusion 模型的參數規(guī)模首次擴展到了 100B 量級。
螞蟻技術研究院表示,此次發(fā)布的模型不僅打破了擴散模型難以擴展的固有印象,更在代碼、數學和智能體任務上展現出了超越同級自回歸(AR)模型的性能。
通過創(chuàng)新的 Warmup-Stable-Decay(WSD)持續(xù)預訓練策略,LLaDA2.0 能夠無縫繼承現有 AR 模型的知識,避免了從頭訓練的高昂成本。結合不僅限于常規(guī) SFT 的置信度感知并行訓練(CAP)和擴散模型版 DPO,LLaDA2.0 在保證生成質量的同時,利用擴散模型的并行解碼優(yōu)勢,實現了相比 AR 模型 2.1 倍的推理加速,證明了在超大規(guī)模參數下,擴散模型不僅可行,而且更強、更快。
螞蟻技術研究院在知識理解、數學、代碼、推理 & 智能體等多個維度對模型進行了評估。結果顯示,LLaDA2.0 在結構化生成任務(如代碼)上具有顯著優(yōu)勢,并在其他領域與開源 AR 模型持平。
LLaDA2.0 的模型權重(16B/100B)及相關訓練代碼均已在 Huggingface 開源。










