螞蟻百靈大模型家族迎來重要成員——Ling-1T。這款擁有萬億參數的通用語言模型由螞蟻集團自主研發,作為Ling 2.0系列的首款旗艦產品,其規模與性能均創下團隊歷史新高。該模型在復雜推理任務中展現出卓越能力,在有限輸出Token條件下,于多項基準測試中刷新最佳成績,尤其在高效思考與精確推理的平衡方面表現突出。
在競賽數學領域,Ling-1T的表現尤為亮眼。以美國數學邀請賽25題(AIME 25)為例,該模型僅消耗平均4000余Token即達到70.42%的準確率,超越同期測試的Gemini-2.5-Pro(消耗5000+Token,準確率70.10%)。這種以更少資源實現更高精度的特性,使其在推理效率與準確率的綜合評估中占據優勢,相關成果已推動該領域帕累托前沿的拓展。
技術架構方面,Ling-1T延續了Ling 2.0的核心設計,依托超過20萬億Token的高質量語料庫完成預訓練,支持最長128K的上下文窗口。通過"中訓練+后訓練"的演進式思維鏈(Evo-CoT)技術,模型在復雜邏輯推導和精準答案生成方面獲得顯著提升。特別值得關注的是,該模型采用FP8混合精度訓練方案,成為當前已知規模最大的FP8基座模型,這項創新使顯存占用降低、并行策略更靈活,并實現15%以上的端到端訓練加速。
在強化學習階段,研發團隊提出LPO(Linguistics-Unit Policy Optimization)策略優化算法,以"句子"為最小優化單元。這種設計既避免了詞元級處理的碎片化問題,又克服了序列級優化的籠統性,使獎勵信號與模型輸出在語義層面實現精準匹配。同時,團隊構建的"語法-功能-美學"混合獎勵機制,在確保代碼正確性的基礎上,顯著提升了模型對視覺美學的理解能力。
在前端開發能力評估中,Ling-1T于ArtifactsBench基準測試取得59.31分,雖略低于Gemini-2.5-Pro-lowthink的60.28分,但在開源模型中穩居首位。該模型在代碼生成、軟件開發、專業數學等領域同樣表現優異,多項指標刷新開源社區紀錄。目前,開發者可通過Hugging Face平臺及螞蟻百寶箱等渠道體驗Ling-1T的完整功能。
據悉,螞蟻百靈團隊還在同步推進深度思考大模型Ring-1T的研發,其preview版本已于9月30日開源。這款聚焦復雜推理的新模型,將與Ling-1T形成能力互補,共同構建更完整的AI技術矩陣。





