在華為全聯接大會的會場上,當大屏幕亮起“昇騰”二字時,原本喧鬧的會場瞬間安靜下來。沒有預想中的歡呼與掌聲,有人屏息凝神,有人紅了眼眶。這一刻,距離華為首次發布昇騰310芯片已過去兩千多個日夜,而昇騰系列的正式回歸,讓所有參與者既感慨又復雜。
華為的AI芯片之路始于2018年昇騰310的發布,次年昇騰910緊隨其后。然而,2019年春天的制裁風暴讓供應鏈幾近斷裂。當時,華為仍按原計劃推進昇騰910的商用發布,但暗流已悄然涌動。徐直軍回憶,受限于備貨量,昇騰910最初僅供應國計民生領域客戶,互聯網行業的需求被迫擱置。這場制裁不僅打亂了華為的節奏,更將其從技術巔峰推向了孤立境地。
面對外部壓力,華為的選擇并非退縮。Mate 60手機、鴻蒙系統、metaERP等產品的推出,展現了其技術韌性。但真正的戰場在AI算力領域——海思、云計算、數據中心等團隊紛紛投入研發,試圖在芯片受限的背景下開辟新路徑。2025年3月,華為推出的Atlas 900超節點成為關鍵轉折點。這款滿配384顆昇騰910C芯片的設備,算力達300 PFLOPS,至今仍是全球算力最大的超節點。其衍生出的CloudMatrix384云服務實例,更被海外機構評價為“領先英偉達、AMD一代”的技術方案。
“制裁逼我們重新定義一切。”徐直軍坦言。從光器件到互聯協議,從芯片設計到超節點架構,華為被迫走出一條自主之路。例如,英偉達曾允許華為使用其CPU互聯協議,但制裁后這一路徑被切斷,華為只能自主研發靈衢互聯協議。這一協議不僅實現了數萬顆芯片的協同工作,更被海外企業視為“超節點技術的核心秘密”。
在芯片規劃方面,華為展現了激進的迭代策略。至2028年,昇騰系列將推出Ascend 950、960、970三大系列,算力每年翻倍。其中,950系列支持FP8算力1 PFLOPS,970系列則提升至4 PFLOPS;互聯帶寬從2TB/s擴展到4TB/s;內存容量和訪問帶寬同步翻倍。這些升級旨在滿足AI模型對算力的指數級需求。
但芯片并非華為AI戰略的全部。徐直軍強調,“超節點+集群”才是核心。以Atlas 950 SuperPoD為例,其支持8192張昇騰卡,算力規模超50萬卡;Atlas 960 SuperPoD更達15488張卡,算力百萬卡級。這種架構通過靈衢協議將分散的芯片整合為“一臺計算機”,實現學習、推理等功能的統一調度。相比之下,英偉達的GB200 NVL72超節點因成本、功耗和可靠性問題,規模大幅縮減。
生態建設是另一大挑戰。國內開發者對昇騰生態的接受度仍待提升,徐直軍以“戀愛”比喻:“不用怎么知道合不合適?問題要在使用中解決。”盡管華為的工具鏈與英偉達存在差距,但拒絕兼容CUDA生態的選擇源于長遠考量。“如果依賴CUDA舊版本,哪天被切斷怎么辦?”他指出,華為從達芬奇架構到昇騰芯片,已構建起不依賴西方生態的完整體系。
超節點的優勢在于將單芯片劣勢轉化為系統優勢。徐直軍承認,昇騰芯片在制程和功耗上暫落后于英偉達,但通過超節點架構,華為實現了算力總和的超越。“AI本質是并行計算,384顆芯片的協同效果遠超單顆性能。”他進一步解釋,超節點像一臺計算機,集群則如云服務,通過軟件層調度多個超節點,形成彈性算力網絡。
靈衢互聯協議的開放是華為生態戰略的關鍵一步。與英偉達NVlink的封閉性不同,華為宣布開放靈衢2.0技術規范,旨在吸引更多企業參與算力集群建設。“硬件變現是我們的理念,但靈衢若僅限華為使用,就無法形成生態。”徐直軍認為,只有產業雪球滾大,中國AI算力才能真正獨立。
華為的技術路線融合了多年通信積累。例如,英偉達超節點采用全銅通信,傳輸距離僅2米;而華為的光通信策略通過光模塊實現低損耗、長距離傳輸,支持更多芯片互聯。這一選擇曾被質疑風險過高,但華為憑借光芯片和故障恢復技術,成功將光模塊故障率控制在可接受范圍。
“這條路是被逼出來的,但也是唯一能走通的路。”徐直軍總結。從芯片到超節點,從協議到生態,華為的AI戰略已超越技術范疇,成為一場關于系統能力的綜合較量。當被問及是否擔心模仿者時,他回應:“誰想重復別人的路?我們更愿意開創未來。”