阿里云網絡基礎設施團隊近日發布了一份技術白皮書,深入探討了超高性能網絡(UPN512)的技術架構。該架構旨在應對人工智能(AI)基礎設施網絡發展過程中,xPU擴展網絡面臨的諸多挑戰,為構建兼具大規模、高性能、高可靠、低成本及可擴展性的xPU擴展系統提供切實可行的解決方案。
白皮書指出,隨著AI領域大模型訓練與推理對計算和內存需求的急劇增長,AI集群必須通過高性能網絡實現擴展。當前,MoE架構、訓推一體化以及xPU規模的持續擴大等趨勢,對網絡性能提出了全新且更高的要求。在現有的xPU擴展系統中,銅互連技術因成本低廉且穩定而被廣泛應用,然而其傳輸距離有限,在高密度機架設計方面存在復雜度高、可靠性差以及擴展性受限等問題。相比之下,光互連技術成為實現更大規模網絡擴展的必然選擇,但也面臨著成本高、可靠性不足以及高帶寬通信下計算開銷大的挑戰。
針對上述問題,白皮書詳細介紹了阿里云UPN512架構的整體概況。UPN512繼承了高性能網絡(HPN)的擴展網絡設計原則,以“大規模、高性能、高可靠、低成本、可擴展”為核心目標,采用了高基數以太網、LPO/NPO光互連以及單層交換設計。與HPN相比,UPN512在GPU帶寬、互連協議和互連規模上存在顯著差異,并且能夠與HPN共同組成高性能系統。
在系統設計及關鍵組件方面,白皮書進行了深入闡述。系統架構上,通過對比AI機架緊密耦合銅互連的優缺點,重點介紹了UPN512的單層光解耦系統。該系統采用全光互連技術,突破了距離限制,支持1K規模域,解耦設計有效降低了系統復雜度,提升了可靠性與靈活性。在光互連方面,分析了可插拔光模塊、高密度帶寬光互連方案,并對比了LPO與NPO的適用場景、成本及穩定性,指出二者互為補充,可根據實際需求選擇。通信語義上,UPN512基于ETH+協議定義了三種低延遲通信語義,以滿足不同數據傳輸需求。在網絡內計算方面,通過在網絡設備內執行計算,加速集體通信,優化了對稱與非對稱集體通信流程,從而提升了數據傳輸效率,降低了計算資源消耗。
這份白皮書為AI基礎設施中xPU擴展系統的發展指明了清晰的技術架構方向,提供了具有實踐價值的參考,對于推動高性能網絡技術在AI領域的廣泛應用具有重要意義。






