摩爾線程在近日舉辦的MUSA開發者大會上,正式推出全新“花港”架構,并同步完成MUSA 5.0全棧軟件升級。此次發布的核心亮點包括兩款基于新架構的芯片——“華山”與“廬山”,分別聚焦AI計算與圖形渲染領域,標志著國產GPU在技術自主化進程中邁出關鍵一步。
作為花港架構的首款芯片,“華山”以AI訓推一體化為核心定位,通過架構升級實現了多項性能突破。其內置的新一代張量計算引擎支持TF32/FP16/INT8全精度矩陣運算,并針對FP6/FP4低精度計算進行優化,配合新增的TCE-PAIR數據重用模式,顯著提升張量運算效率。在硬件設計上,該芯片集成MTFP8/6/4混合低精度計算技術,同時兼容MXFP與NVFP兩種計算標準,為AI模型訓練與推理提供靈活支持。
針對超大規模AI計算場景,“華山”芯片展現出強大的擴展能力。其搭載的新一代Scale-up系統支持MTLink 4.0協議與多種以太網標準,可適配不同廠商的Scale-up交換機,片間互聯帶寬達1314GB/s。這一特性使其具備支撐超十萬卡級AI工廠的潛力,通過支持SHARP網絡協議優化集體通信效率,滿足大模型訓練對算力集群的嚴苛需求。
另一款芯片“廬山”則專注于高性能圖形渲染領域。依托花港架構的新一代指令集,該芯片在算力密度上實現50%提升,能效比達到前代產品的10倍。其內置的第一代AI生成式渲染架構(AGR)與第二代光追硬件加速引擎形成協同,可完美兼容DirectX 12 Ultimate標準,為游戲、影視等場景提供真實光影效果。在渲染管線優化方面,UNITE架構通過動態任務分配機制,有效平衡幾何處理、像素著色與光追計算負載。
值得關注的是,花港架構在光線追蹤技術上取得重大突破。全新設計的光追硬件加速引擎支持全場景光線遍歷求交運算,相比前代春曉架構性能提升達50倍。這一進步不僅縮短了實時渲染的延遲,還為建筑可視化、工業設計等專業領域提供高效解決方案。據技術白皮書披露,該引擎通過硬件級優化減少了軟件層面的計算開銷,使得復雜場景的光追渲染效率得到質的提升。
據現場技術演示顯示,搭載兩款新芯片的硬件產品已完成原型驗證,預計將于明年正式投入商用。摩爾線程透露,新架構在軟件生態層面已完成與主流AI框架及圖形API的適配,開發者可通過MUSA工具鏈快速遷移現有應用。此次發布標志著國產GPU在架構設計、性能指標與生態兼容性等方面達到國際先進水平,為人工智能與數字內容產業提供新的算力選擇。











