在近日舉辦的世界互聯(lián)網(wǎng)大會(huì)·烏鎮(zhèn)峰會(huì)前沿人工智能模型論壇上,螞蟻集團(tuán)平臺(tái)技術(shù)事業(yè)群負(fù)責(zé)人駱驥透露,該集團(tuán)已建成具備萬(wàn)卡規(guī)模的國(guó)產(chǎn)化算力基礎(chǔ)設(shè)施。這一由國(guó)產(chǎn)芯片構(gòu)建的集群不僅支持螞蟻?zhàn)匝心P图爸髁鏖_(kāi)源框架,更在系統(tǒng)穩(wěn)定性方面取得突破性進(jìn)展,連續(xù)訓(xùn)練任務(wù)成功率保持在98%以上。
據(jù)技術(shù)團(tuán)隊(duì)介紹,該算力集群通過(guò)架構(gòu)優(yōu)化與算法調(diào)優(yōu),在模型訓(xùn)練效率與推理響應(yīng)速度等核心指標(biāo)上,已達(dá)到國(guó)際同類產(chǎn)品的同等水平。特別在安全風(fēng)控場(chǎng)景中,依托該集群構(gòu)建的大模型系統(tǒng),能夠?qū)崟r(shí)處理海量數(shù)據(jù)并完成風(fēng)險(xiǎn)識(shí)別,為金融業(yè)務(wù)提供智能化支撐。
值得關(guān)注的是,這套國(guó)產(chǎn)化解決方案實(shí)現(xiàn)了從硬件到軟件的全鏈路自主可控。工程團(tuán)隊(duì)通過(guò)分布式訓(xùn)練框架創(chuàng)新,解決了大規(guī)模集群下的通信瓶頸問(wèn)題,同時(shí)開(kāi)發(fā)了動(dòng)態(tài)資源調(diào)度系統(tǒng),使算力利用率較傳統(tǒng)方案提升40%以上。目前該集群已承載螞蟻集團(tuán)多個(gè)核心業(yè)務(wù)的模型訓(xùn)練任務(wù),日均處理數(shù)據(jù)量超過(guò)PB級(jí)。
業(yè)內(nèi)專家指出,萬(wàn)卡級(jí)國(guó)產(chǎn)算力集群的落地,標(biāo)志著我國(guó)在人工智能基礎(chǔ)設(shè)施領(lǐng)域取得重要進(jìn)展。這種自主可控的技術(shù)棧不僅降低了對(duì)進(jìn)口芯片的依賴,更通過(guò)定制化優(yōu)化釋放了國(guó)產(chǎn)硬件的潛在性能,為金融科技等關(guān)鍵領(lǐng)域提供了安全可靠的算力保障。









