在近日舉辦的一場重要開發(fā)者大會上,國內(nèi)GPU企業(yè)摩爾線程全面展示了其在全功能GPU領(lǐng)域的最新突破,涵蓋架構(gòu)創(chuàng)新、集群能力提升以及生態(tài)建設(shè)等多個維度,引發(fā)行業(yè)廣泛關(guān)注。
此次大會的核心亮點之一,是摩爾線程全新一代GPU架構(gòu)“花港”的正式發(fā)布。據(jù)介紹,該架構(gòu)在計算密度方面實現(xiàn)了50%的提升,效能提升幅度最高可達10倍,并且完整支持從FP4到FP64的全精度計算。尤為值得關(guān)注的是,“花港”架構(gòu)集成了自研的MTLink高速互聯(lián)技術(shù),這一技術(shù)為構(gòu)建十萬卡規(guī)模以上的集群提供了底層支撐,為未來大規(guī)模計算集群的擴展奠定了堅實基礎(chǔ)。
基于“花港”架構(gòu),摩爾線程已規(guī)劃了兩款針對性芯片產(chǎn)品。其中,“華山”芯片專注于AI訓(xùn)練與推理一體化,旨在滿足人工智能領(lǐng)域?qū)Ω咝阅苡嬎愕男枨螅欢皬]山”芯片則瞄準高性能圖形渲染,在圖形性能上實現(xiàn)了數(shù)量級的顯著提升。具體而言,“廬山”芯片的AI計算、幾何處理及光線追蹤性能分別提升了64倍、16倍和50倍。這一架構(gòu)與產(chǎn)品路線的發(fā)布,標志著摩爾線程正從單一場景的加速卡產(chǎn)品,向覆蓋AI計算、圖形渲染、科學(xué)計算等全場景的“全功能GPU”平臺邁進,既是技術(shù)實力的體現(xiàn),也是應(yīng)對市場多元需求的戰(zhàn)略布局。
在集群能力方面,摩爾線程首次系統(tǒng)披露了其“夸娥”萬卡智算集群的關(guān)鍵工程效率指標,成為國內(nèi)少數(shù)公開萬卡級實際訓(xùn)練效率的廠商之一。數(shù)據(jù)顯示,該萬卡集群在訓(xùn)練稠密大模型時,模型算力利用率(MFU)達到60%;訓(xùn)練混合專家模型時,MFU為40%;訓(xùn)練線性擴展效率達95%,有效訓(xùn)練時間占比超過90%。這些指標,尤其是MFU,是衡量超大規(guī)模AI集群實際效能的關(guān)鍵因素,直接關(guān)系到訓(xùn)練的總體成本與可行性。在推理側(cè),摩爾線程聯(lián)合硅基流動,在DeepSeek R1 671B全量模型上取得性能突破。經(jīng)優(yōu)化后,MTT S5000單卡在Prefill階段吞吐量突破4000 tokens/s,Decode階段突破1000 tokens/s,為國產(chǎn)GPU在超大規(guī)模模型推理場景樹立了新的性能標桿。
中國工程院院士、清華大學(xué)計算機系教授鄭緯民在大會演講中指出,雖然構(gòu)建國產(chǎn)萬卡乃至十萬卡級別的超大規(guī)模智算系統(tǒng)面臨諸多挑戰(zhàn),但這是產(chǎn)業(yè)發(fā)展的必然任務(wù)。他認為,國產(chǎn)計算顯卡與國外主流產(chǎn)品的性能差距正在逐步縮小,而集群能力的突破對于發(fā)展“主權(quán)AI”、實現(xiàn)“算力自主”至關(guān)重要。
除了硬件與集群的突破,摩爾線程在生態(tài)建設(shè)方面也邁出了重要步伐。公司宣布其自主統(tǒng)一的軟件架構(gòu)MUSA已迭代至5.0版本,并計劃逐步開源包括計算加速庫、通信庫及系統(tǒng)管理框架在內(nèi)的核心組件。鄭緯民院士特別強調(diào)了開發(fā)者在生態(tài)建設(shè)中的核心作用,指出國產(chǎn)芯片平臺必須構(gòu)建友好、易用的開發(fā)環(huán)境。為此,摩爾線程發(fā)布了搭載自研“長江”智能SoC的AI算力本MTT AIBOOK,提供端側(cè)50TOPS算力,旨在實現(xiàn)從芯片到開發(fā)環(huán)境的全棧整合與“開箱即用”。同時,其面向開發(fā)者的“摩爾學(xué)院”平臺已匯聚近20萬學(xué)習(xí)者,并通過校企合作覆蓋全國超200所高校,形成了從底層技術(shù)開源、到開發(fā)工具供給、再到人才早期培養(yǎng)的全鏈路生態(tài)建設(shè)模式。
在技術(shù)融合與前沿探索方面,摩爾線程也展現(xiàn)了前瞻性布局。公司宣布基于“花港”架構(gòu)實現(xiàn)了硬件級光線追蹤加速,并推出了自研的AI生成式渲染技術(shù)MTAGR 1.0,推動渲染技術(shù)從“計算”向“生成”范式轉(zhuǎn)變。摩爾線程已在具身智能、科學(xué)智能(AI for Science)、AI for 6G等前沿交叉領(lǐng)域展開布局,發(fā)布了具身智能仿真訓(xùn)練平臺MT Lambda及相應(yīng)的機器人解決方案,表明其技術(shù)路線不僅聚焦于單一的AI算力,更著眼于GPU作為通用計算平臺在未來更廣闊場景中的應(yīng)用與價值重塑。
摩爾線程此次的全棧技術(shù)展示,反映了當前國產(chǎn)高端算力發(fā)展的階段性特征:從單點芯片的突破,正逐步進入需要攻克超大規(guī)模系統(tǒng)工程、構(gòu)建繁榮應(yīng)用生態(tài)的新階段。萬卡集群效率的公開,意味著國產(chǎn)算力基礎(chǔ)設(shè)施已開始接受大規(guī)模、高負荷實際場景的檢驗。而架構(gòu)的迭代、圖形與AI的融合,以及對科學(xué)計算等前沿領(lǐng)域的探索,則展現(xiàn)了企業(yè)參與定義下一代計算架構(gòu)的技術(shù)雄心。然而,通往成熟生態(tài)的道路依然充滿挑戰(zhàn),硬件性能的持續(xù)提升、軟件棧的深度優(yōu)化、與國內(nèi)外主流開發(fā)框架及應(yīng)用的廣泛兼容,以及吸引足夠數(shù)量和質(zhì)量的開發(fā)者形成網(wǎng)絡(luò)效應(yīng),仍是所有國產(chǎn)GPU廠商需要共同面對的課題。









