螞蟻集團(tuán)旗下百靈團(tuán)隊(duì)近日宣布,其自主研發(fā)的萬億參數(shù)思考模型Ring-1T正式上線并全面開源,包括模型權(quán)重與訓(xùn)練框架。該模型在9月30日發(fā)布的預(yù)覽版Ring-1T-preview基礎(chǔ)上,通過大規(guī)模可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)技術(shù)進(jìn)一步優(yōu)化了自然語言推理能力,同時(shí)結(jié)合RLHF訓(xùn)練框架提升了通用任務(wù)表現(xiàn),在多項(xiàng)基準(zhǔn)測(cè)試中展現(xiàn)出均衡性能。
在數(shù)學(xué)推理能力驗(yàn)證方面,Ring-1T創(chuàng)造了開源模型領(lǐng)域的歷史性突破。研究團(tuán)隊(duì)將其接入多智能體框架AWorld,以純自然語言推理方式挑戰(zhàn)國際數(shù)學(xué)奧林匹克(IMO)2025年賽題。實(shí)驗(yàn)數(shù)據(jù)顯示,模型首次嘗試即成功解出第1、3、4、5題,達(dá)到IMO銀牌標(biāo)準(zhǔn),成為首個(gè)具備國際奧數(shù)獎(jiǎng)級(jí)水平的開源系統(tǒng)。面對(duì)第2題幾何證明時(shí),第三次嘗試即產(chǎn)出接近滿分的證明過程;在第六題復(fù)雜計(jì)算中,答案收斂至與Gemini2.5Pro相同的"4048"(正確答案為2112),展現(xiàn)出強(qiáng)大的復(fù)雜問題處理能力。
通用能力測(cè)試中,Ring-1T在"人類偏好對(duì)齊"基準(zhǔn)Arena-Hard V2上取得81.59%的成功率,位列開源模型榜首,與GPT-5-Thinking(High)的82.91%僅差1.32個(gè)百分點(diǎn)。在醫(yī)療領(lǐng)域?qū)I(yè)測(cè)評(píng)HealthBench中,該模型以最高分刷新開源模型紀(jì)錄,證明其在專業(yè)場(chǎng)景下的可靠性。
針對(duì)萬億參數(shù)模型訓(xùn)練的核心挑戰(zhàn)——訓(xùn)練與推理階段的精度差異問題,螞蟻集團(tuán)研發(fā)了"棒冰(icepop)"算法。該技術(shù)通過帶掩碼的雙向截?cái)鄼C(jī)制,將訓(xùn)練-推理分布差異控制在極低水平,確保長序列訓(xùn)練的穩(wěn)定性。對(duì)比實(shí)驗(yàn)顯示,采用傳統(tǒng)GRPO算法的模型隨著訓(xùn)練推進(jìn),訓(xùn)推差異呈指數(shù)級(jí)增長,而icepop算法始終維持平穩(wěn)狀態(tài),有效避免了訓(xùn)練崩潰風(fēng)險(xiǎn)。
在強(qiáng)化學(xué)習(xí)系統(tǒng)優(yōu)化方面,螞蟻?zhàn)匝械腁System框架(含開源組件AReaL)針對(duì)萬億參數(shù)模型特性,開發(fā)了顯存碎片秒級(jí)回收和權(quán)重零冗余交換技術(shù)。這些創(chuàng)新解決了大規(guī)模模型訓(xùn)練中的顯存管理難題,使強(qiáng)化學(xué)習(xí)訓(xùn)練能夠穩(wěn)定持續(xù)進(jìn)行。
基礎(chǔ)架構(gòu)層面,Ring-1T延續(xù)了Ling2.0架構(gòu)的1T base模型設(shè)計(jì),采用高度稀疏的MoE架構(gòu)(專家激活比1/32)、FP8混合精度訓(xùn)練及MTP優(yōu)化技術(shù)。后訓(xùn)練階段通過LongCoT-SFT、RLVR、RLHF三階段聯(lián)合訓(xùn)練,顯著提升了模型的復(fù)雜推理、指令跟隨及創(chuàng)意寫作能力。
目前,用戶可通過HuggingFace平臺(tái)和魔搭社區(qū)下載Ring-1T模型,或通過螞蟻百寶箱在線體驗(yàn)。該模型的發(fā)布標(biāo)志著螞蟻百靈大模型家族正式邁入2.0時(shí)代,現(xiàn)已形成覆蓋160億至1萬億參數(shù)的完整產(chǎn)品矩陣,包含萬億參數(shù)通用大語言模型Ling-1T和思考模型Ring-1T兩款旗艦產(chǎn)品。據(jù)團(tuán)隊(duì)透露,后續(xù)版本將持續(xù)優(yōu)化模型性能,拓展應(yīng)用場(chǎng)景。













