螞蟻技術研究院近日正式發布全新離散擴散大語言模型LLaDA2.0系列,包含160億參數的MoE架構mini版本與1000億參數的flash版本。該成果被業界視為擴散模型領域的重要突破,首次將此類模型的參數規模推進至千億量級,同步公開的技術報告顯示其多項性能指標超越傳統自回歸模型。
研發團隊通過創新架構設計突破了擴散模型擴展瓶頸。LLaDA2.0采用混合專家(MoE)架構,在保持模型靈活性的同時實現參數高效利用。其中100B版本憑借獨特的參數擴展方案,成功將擴散模型的訓練規模提升至傳統架構難以企及的千億級別,為超大規模語言模型開辟了新的技術路徑。
在性能驗證環節,該模型展現出顯著優勢。通過WSD持續預訓練策略,新模型可直接繼承現有自回歸模型的知識體系,避免重復訓練帶來的資源消耗。結合置信度感知并行訓練(CAP)與擴散模型專用優化算法,模型在保證生成質量的前提下,解碼速度較傳統自回歸模型提升2.1倍,特別在代碼生成、數學推理等結構化任務中表現突出。
多維度評估數據顯示,LLaDA2.0在代碼生成任務中展現出獨特優勢,其生成的代碼結構完整性較同類模型提升18%。在數學推理和智能體交互等復雜場景中,模型性能與主流開源自回歸模型持平,而在特定結構化輸出任務中則表現出更強的生成穩定性。這種差異化優勢為不同應用場景提供了新的技術選擇。
為推動技術普惠,研究團隊已將16B和100B兩個版本的模型權重及訓練代碼完整開源至Huggingface平臺。此舉不僅降低了超大規模模型的技術門檻,更為學術界和產業界提供了可復現的研究基準。開發者可基于開源框架進行二次開發,探索擴散模型在更多垂直領域的應用可能性。










