AI智能體正以驚人的速度從實驗室走向產業一線,2025年成為業界公認的“AI智能體元年”。隨著AI應用在千行百業中爆發式增長,算力需求的底層邏輯發生深刻轉變——過去以模型訓練為核心的“厚積”階段逐漸退場,AI推理的“薄發”正成為驅動算力增長的核心動力。企業關注的焦點已從“AI能做什么”轉向“AI能做好什么、能低成本做好什么”,如何在推理環節實現降本、提質、增效的三重突破,成為行業共同面臨的課題。
在華為全聯接大會2025期間的昇騰AI產業峰會上,一則重磅消息引發行業關注:昇騰聯合數十家行業伙伴,首次集中展示了大規模專家并行(大EP)架構的六大行業實踐成果。從運營商的AItoC業務拓展到政務便民服務,從教育個性化學習推薦到金融風險實時預警,這一技術方案已深度滲透50余家客戶的核心場景,用實打實的應用效果證明了推理系統突破帶來的價值。
這場集體發布的意義遠超技術展示本身。當全球AI大模型產業化進入深水區,推理環節作為技術價值轉化的核心,直接決定著AI紅利能否真正落地。尤其是在DeepSeek推動混合專家模型(MoE)成為主流后,傳統部署模式與新技術路線的適配矛盾日益凸顯。單機部署時專家權重的高占用率導致內存不堪重負,PD混合部署易引發資源分配失衡,而MoE模型的動態路由機制更常造成“專家熱點不均”——部分專家超負荷運轉,其余專家卻閑置,形成算力資源的結構性浪費。
這些架構層面的問題最終轉化為企業的實操痛點:硬件堆疊難以應對長文本處理、多輪對話等復雜推理需求,首Token時延居高不下影響用戶體驗,單位Token成本高企削弱商業競爭力。面對MoE模型帶來的推理瓶頸,昇騰在業界率先提出以大EP架構創新為核心,結合超節點硬件及基礎加速軟件的“一體化破局”方案,為適配MoE推理提供了“最優解”。
大EP架構的核心邏輯是將MoE模型的多個路由專家分散部署于多卡環境,通過動態調度實現算力資源的精準匹配。這一設計既保留了MoE模型“專業分工”的優勢,又解決了“協同混亂”的問題,讓每卡算力得到充分利用。而其高效運轉離不開多機多卡超節點的支撐——以昇騰384超節點為例,依托華為自研的靈衢互聯協議,通信帶寬提升15倍,單跳通信時延降至200納秒以內,為專家協同搭建起“通信高速公路”。在實際部署中,該方案可實現DeepSeek模型“1卡1專家”的配置,容納256個路由專家、32個共享專家及96個冗余專家,在保障系統穩定性的同時實現算力資源的高效利用。
從此次發布的運營商、政務、教育、金融、大模型、電力六大行業實踐來看,昇騰大EP方案已從先行先試走向規模落地,成為MoE模型推理部署的“事實標準”。在電信行業,三大運營商基于自研AI平臺部署昇騰大EP方案后,吞吐能力提升4倍、時延降低50%,調用成本更是下降超50%,有力支撐了移動AI時代新興業務的高速發展。教育領域,某頂尖985高校引入該方案后,2k長文本輸入輸出場景的吞吐性能提升3倍以上,成功滿足全校數萬師生多樣化的AI需求。金融行業,中國郵政儲蓄銀行通過部署昇騰大EP方案,實現3倍吞吐性能提升,加速了“郵智”大模型的規模化應用,深度賦能智能客服、審貸助手等業務場景。
數據顯示,截至目前,昇騰大EP方案已深入六大行業的50余家客戶核心場景,以“一份投入,多份產出”的高效模式最大化成本效益。這一成果的背后,是中國AI產業差異化發展路徑的生動實踐——在單卡算力與全球頂尖水平存在差距、企業AI投資預算相對有限的約束下,中國產業界通過“技術垂直整合+行業場景深耕”的組合策略,走出了一條適配自身需求的AI落地之路。
從技術層面看,當國際巨頭聚焦于“提升單卡算力”時,中國企業選擇從“系統層面優化資源效率”切入,通過大EP+超節點創新將軟硬件協同效能最大化,以“群體優勢”彌補“個體差距”。從產業層面看,中國AI產業的核心需求是“千行百業的規模化落地”,而非局限于特定場景的“AGI夢”。昇騰大EP方案通過“低成本高性能”的目標,有力支撐了“人工智能+”的蓬勃發展。這種差異化路徑不僅為中國AI產業的規模化發展提供了堅實支撐,也為全球AI產業的多元化發展提供了“中國方案”。