摩爾線程在北京舉辦的首屆MUSA開發者大會上,正式發布新一代全功能GPU架構“花港”,同步展示萬卡級AI訓練集群及多項技術突破。此次技術升級覆蓋芯片架構、集群算力、軟件生態及圖形渲染等多個維度,標志著國內GPU廠商在AI計算領域的技術布局進入新階段。
新架構“花港”實現全精度計算覆蓋,支持從FP4到FP64的完整精度范圍,算力密度較前代提升50%,能效比達到10倍優化。基于該架構,摩爾線程規劃推出兩款專用芯片:面向AI訓練與推理的“華山”系列,以及專注圖形渲染的“廬山”系列。其中,“華山”芯片將重點優化大模型訓練效率,而“廬山”芯片則集成硬件光線追蹤加速引擎,支持自研的AI生成式渲染技術。
在集群計算領域,摩爾線程推出“夸娥”萬卡智算集群,宣稱具備全精度通用計算能力。實測數據顯示,該集群在稠密模型訓練中算力利用率達60%,混合專家模型訓練利用率達40%,線性擴展效率保持在95%以上。推理性能方面,與硅基流動合作完成的DeepSeek R1 671B模型測試顯示,單卡Prefill吞吐量突破4000 tokens/s,Decode吞吐量超過1000 tokens/s,刷新國內同類產品紀錄。
軟件生態建設取得實質性進展。MUSA 5.0版本對編程模型、計算庫及編譯器進行深度優化,核心計算庫muDNN的GEMM運算與FlashAttention效率均突破98%,集群通信效率達97%。公司宣布將逐步開源計算加速庫與系統管理框架等核心組件,目前已有部分工具鏈開放下載。此舉被視為構建國產GPU軟件生態的關鍵步驟。
圖形技術領域實現多項突破。新架構集成第二代硬件光線追蹤加速單元,支持實時光線追蹤與路徑追蹤混合渲染。自研的AI生成式渲染技術可實時將低分辨率內容升級為8K畫質,在具身智能仿真訓練中實現物理世界與數字世界的精準映射。大會現場演示的MTLambda仿真平臺,已支持機器人訓練的物理引擎與AI算法深度耦合。
端側設備布局同步推進。基于“長江”SoC的AI算力本MTT AIBOOK亮相大會,這款便攜設備集成NPU加速單元,可本地運行70億參數大模型。面向超大規模智算中心,摩爾線程提出MTTC256超節點架構設計,通過高密度硬件集成與動態能效調節技術,單節點可支持256顆GPU互聯,功耗比優化達30%。
行業觀察人士指出,摩爾線程此次技術發布呈現三大特征:架構設計提前量增大,軟件生態開放程度提升,應用場景覆蓋度擴展。從芯片架構到集群方案再到端側設備的技術閉環,顯示出其構建全棧AI計算平臺的戰略意圖。特別是在訓練集群效率與推理性能等關鍵指標上,已形成對國際主流產品的差異化競爭態勢。







