摩爾線程近日宣布,其專為PyTorch深度學習框架打造的MUSA擴展庫——Torch-MUSA迎來v2.7.0版本升級。此次更新距離上一次v2.5.0版本發布僅間隔一個月,標志著該庫在迭代速度與功能演進上持續加速。新版本不僅在計算能力、內存管理等方面實現突破,更通過算子擴展與系統優化進一步鞏固了性能優勢。
版本同步策略的調整成為此次升級的重要基礎。自v2.5.0版本起,Torch-MUSA開始采用與PyTorch主版本號對齊的命名規則,此舉顯著簡化了開發者的版本管理流程。在硬件兼容性方面,新版本全面支持MUSA SDK 4.2.0至4.3.0及后續版本,確保與最新開發工具鏈的無縫銜接。目前該庫已累計支持超過1050個專屬算子,覆蓋深度學習訓練與推理的核心需求。
計算加速能力的擴展是本次升級的核心亮點。新版本深度整合了muFFT快速傅里葉變換庫與muSolver線性求解器庫,使得復雜數學運算的執行效率獲得質的提升。針對邊緣計算場景,開發團隊在基于Arm架構的SoC設備上實現了統一內存管理(UMM)支持。通過UMA(統一內存尋址)技術,GPU與CPU可共享同一物理內存空間,徹底消除GPU端的重復內存分配,減少主機與設備間的數據拷貝次數,并允許GPU直接訪問CPU分配的內存區域,內存開銷降低達30%以上。
算子支持體系迎來全面擴容。新增算子涵蓋位運算(ilshift/irshift)、序列填充(replication_pad1d_bwd)、概率計算(angle/logit)、語音識別(ctcLossTensor系列)等十余個領域,同時擴展了稀疏矩陣(CSR格式)操作與量化算子支持范圍。針對開發者反饋的問題,修復了torch.norm形狀計算錯誤、空輸入下argmax/argmin異常等已知缺陷,并新增tensor.is_musa方法用于設備類型檢測。性能優化方面,var/std統計計算、3D卷積、層歸一化等操作的執行效率提升15%-20%,reduce_sum操作新增對uint8輸入與int64輸出的支持。
系統級功能增強包含三大方向:開放torch.musa.mccl.version接口用于版本查詢,新增getCurrentMUSABlasHandle系列API強化底層控制能力,優化FSDP2流水線并行策略使訓練內存占用減少25%。這些改進使得大規模模型訓練的穩定性與資源利用率得到顯著提升。
開發團隊透露,Torch-MUSA將保持與PyTorch生態的緊密同步,下一版本計劃實現對PyTorch 2.9.0的支持,并持續在算子覆蓋、硬件加速、內存管理等領域進行深度優化。該項目已通過GitHub平臺完全開源,開發者可訪問指定地址獲取完整代碼與文檔支持。











