AI大模型的爆發(fā)式發(fā)展,正推動算力行業(yè)進入新一輪變革期。從傳統(tǒng)CPU到GPU、NPU,各類AI芯片成為市場焦點,中國本土企業(yè)借此契機加速崛起。華為、阿里、百度等科技巨頭與寒武紀(jì)、云天勵飛、壁仞科技、摩爾線程等創(chuàng)新企業(yè)共同推動芯片性能提升,但單顆芯片算力增長仍難以滿足大模型參數(shù)指數(shù)級擴張的需求。
當(dāng)前算力系統(tǒng)面臨雙重挑戰(zhàn):一方面,單臺服務(wù)器搭載8張GPU卡已難以支撐模型訓(xùn)練,多機并行時又出現(xiàn)CPU、GPU與存儲設(shè)備間的數(shù)據(jù)傳輸擁堵,算力損耗率高達50%;另一方面,不同廠商設(shè)備采用差異化通信協(xié)議,導(dǎo)致數(shù)據(jù)在跨設(shè)備傳輸時需經(jīng)歷復(fù)雜轉(zhuǎn)換,甚至同一廠商設(shè)備在集群擴展時也會出現(xiàn)性能非線性衰減——10個節(jié)點理論算力提升10倍,實際可能僅達1倍。
破解這些難題的關(guān)鍵,在于將分散的算力資源整合為協(xié)同作戰(zhàn)的"超級團隊"。華為提出的"超節(jié)點"架構(gòu)與配套技術(shù)"靈衢"(UnifiedBus)正是這種系統(tǒng)化思維的體現(xiàn)。該架構(gòu)將CPU、GPU、NPU及存儲設(shè)備整合為統(tǒng)一計算單元,而靈衢技術(shù)則通過標(biāo)準(zhǔn)化通信協(xié)議消除設(shè)備間語言障礙,實現(xiàn)算力資源的無縫調(diào)度。
靈衢技術(shù)的核心突破在于創(chuàng)建了算力領(lǐng)域的"通用語言"。這套協(xié)議覆蓋從超節(jié)點內(nèi)部到跨集群的所有通信場景,打破傳統(tǒng)計算機網(wǎng)絡(luò)與計算機架構(gòu)的物理界限。過去數(shù)據(jù)傳輸需經(jīng)歷網(wǎng)絡(luò)層與架構(gòu)層的雙重轉(zhuǎn)換,如同在不同房間間搬運物品需反復(fù)開關(guān)門;現(xiàn)在靈衢通過底層網(wǎng)絡(luò)邏輯連接設(shè)備、上層架構(gòu)邏輯管理資源,構(gòu)建起數(shù)據(jù)直通的"高速公路"。
在硬件整合層面,華為創(chuàng)新性地打造"超級單一節(jié)點"。不同于簡單堆砌設(shè)備,該架構(gòu)將各類算力組件通過統(tǒng)一高速總線連接,使交換機等傳統(tǒng)網(wǎng)絡(luò)設(shè)備升級為算力協(xié)作單元。這種設(shè)計實現(xiàn)四大目標(biāo):提升異構(gòu)計算性能、保障系統(tǒng)高可用性、實現(xiàn)內(nèi)存帶寬等資源池化、支持跨廠商組件即插即用。
該技術(shù)的工業(yè)化落地得益于華為長期積累。自2019年立項以來,研發(fā)團隊整合了鯤鵬、昇騰等自研芯片的工程經(jīng)驗,經(jīng)過多輪芯片級與集群級驗證。目前靈衢1.0已實現(xiàn)產(chǎn)品化,在兼容現(xiàn)有以太網(wǎng)基礎(chǔ)設(shè)施的同時,可與各類應(yīng)用無縫對接。
為推動行業(yè)標(biāo)準(zhǔn)建立,華為采取開放策略:全面公開從物理層到事務(wù)層的協(xié)議規(guī)范,并提供第三方驗證工具。這種做法打破了以往廠商協(xié)議封閉導(dǎo)致的客戶綁定困局,使中小廠商也能基于標(biāo)準(zhǔn)協(xié)議開發(fā)兼容產(chǎn)品。據(jù)集群計算總經(jīng)理透露,技術(shù)發(fā)布后已有數(shù)十家企業(yè)主動尋求合作,遠(yuǎn)超預(yù)期。
實際應(yīng)用數(shù)據(jù)顯示,靈衢技術(shù)在特定場景可帶來顯著性能提升。在AI大模型訓(xùn)練中,超節(jié)點互聯(lián)使通信開銷降低20%以上;在數(shù)據(jù)庫場景下,三層資源池化架構(gòu)使TPCC指標(biāo)提升20%。這些優(yōu)化特別適用于需要高并行、強同步的計算任務(wù)。
面對超節(jié)點規(guī)模爭議,華為選擇以技術(shù)儲備應(yīng)對不確定性。基于靈衢2.0底座推出的Atlas 950 SuperCluster(2026年Q4上市)將集成64個超節(jié)點,F(xiàn)P8算力達524 EFLOPS,超越當(dāng)前全球最大集群;2027年Q4發(fā)布的Atlas 960 SuperCluster更將達到百萬卡級規(guī)模,F(xiàn)P8/FP4算力分別達2ZFLOPS和4ZFLOPS。測試表明,Atlas 950 SuperPoD可支持8192張昇騰卡同步運行,訓(xùn)練吞吐達4.91M TPS,推理吞吐達19.6M TPS。
這場算力革命揭示出新的競爭維度:從單芯片性能比拼轉(zhuǎn)向系統(tǒng)效率競爭。靈衢技術(shù)通過消除設(shè)備間的"語言壁壘"與"協(xié)作孤島",為行業(yè)提供了標(biāo)準(zhǔn)化解決方案。雖然其全面影響尚需時間驗證,但這種系統(tǒng)化創(chuàng)新思路,無疑為應(yīng)對AI算力需求提供了重要方向。











