在2025年世界互聯(lián)網(wǎng)大會(huì)?烏鎮(zhèn)峰會(huì)前沿人工智能模型論壇上,螞蟻集團(tuán)平臺(tái)技術(shù)事業(yè)群總裁駱驥透露,該集團(tuán)已建成萬卡規(guī)模的國(guó)產(chǎn)算力集群。該集群不僅適配自主研發(fā)模型及主流開源框架,訓(xùn)練任務(wù)穩(wěn)定性突破98%,其訓(xùn)練與推理性能更達(dá)到國(guó)際先進(jìn)水平,目前正全面支撐安全風(fēng)控領(lǐng)域的大模型應(yīng)用。
今年3月,螞蟻集團(tuán)Ling團(tuán)隊(duì)在Arxiv預(yù)印本平臺(tái)發(fā)布技術(shù)論文《每一個(gè)FLOP都至關(guān)重要:無需高級(jí)GPU即可擴(kuò)展3000億參數(shù)混合專家LING大模型》,宣布推出百靈輕量版(Ling-Lite)與百靈增強(qiáng)版(Ling-Plus)兩款混合專家(MoE)大語言模型。研究團(tuán)隊(duì)通過架構(gòu)創(chuàng)新與訓(xùn)練策略優(yōu)化,首次實(shí)現(xiàn)3000億參數(shù)大模型在國(guó)產(chǎn)GPU設(shè)備上的高效訓(xùn)練,其性能表現(xiàn)與使用英偉達(dá)高端芯片的同規(guī)模模型持平。
傳統(tǒng)MoE模型訓(xùn)練高度依賴英偉達(dá)H100/H800等高性能GPU,不僅硬件成本高昂,更面臨全球芯片短缺的困境。螞蟻團(tuán)隊(duì)提出的"無高級(jí)GPU"訓(xùn)練方案,通過動(dòng)態(tài)參數(shù)分配技術(shù)實(shí)現(xiàn)計(jì)算資源的高效利用,混合精度調(diào)度策略則顯著降低內(nèi)存占用。在異常處理方面,自適應(yīng)容錯(cuò)恢復(fù)系統(tǒng)將中斷響應(yīng)時(shí)間壓縮至行業(yè)平均水平的三分之一。
該團(tuán)隊(duì)構(gòu)建的自動(dòng)化評(píng)測(cè)框架使模型驗(yàn)證周期縮短超50%,基于知識(shí)圖譜的指令微調(diào)技術(shù)更將復(fù)雜任務(wù)執(zhí)行精度提升18%。實(shí)驗(yàn)數(shù)據(jù)顯示,采用國(guó)產(chǎn)GPU訓(xùn)練的3000億參數(shù)MoE模型,在推理速度、任務(wù)完成率等核心指標(biāo)上,已達(dá)到使用英偉達(dá)全系芯片訓(xùn)練的稠密模型及MoE模型水準(zhǔn),為資源受限場(chǎng)景下的模型部署開辟新路徑。
這套創(chuàng)新訓(xùn)練體系包含四大核心技術(shù)突破:架構(gòu)層面采用動(dòng)態(tài)專家激活機(jī)制,使單卡有效計(jì)算量提升40%;訓(xùn)練策略引入漸進(jìn)式負(fù)載均衡算法,解決MoE模型常見的專家冷啟動(dòng)問題;異常處理系統(tǒng)通過預(yù)測(cè)性檢查點(diǎn)機(jī)制,將訓(xùn)練中斷恢復(fù)時(shí)間從小時(shí)級(jí)壓縮至分鐘級(jí);評(píng)估體系則開發(fā)出多維度自動(dòng)化評(píng)測(cè)工具,實(shí)現(xiàn)模型性能的實(shí)時(shí)動(dòng)態(tài)監(jiān)測(cè)。









