第22屆中國計算機大會(CNCC2025)在哈爾濱拉開帷幕,這場以“數(shù)智賦能,無限可能”為主題的科技盛會吸引了眾多行業(yè)目光。華為數(shù)據(jù)通信產(chǎn)品線研究部部長鄭曉龍在會上發(fā)表了題為《大模型推理加速與演進:網(wǎng)絡(luò)如何破局?》的演講,首次提出“網(wǎng)絡(luò)+”破局模型,為解決十萬卡智算集群面臨的通信瓶頸問題提供了全新思路。
鄭曉龍指出,在單卡算力提升逐漸放緩的當下,通過跨層協(xié)同網(wǎng)絡(luò)、計算與存儲資源,才能將集群效率推向新的高度。華為提出的“網(wǎng)絡(luò)+”破局模型,正是為了系統(tǒng)化解決超大規(guī)模智算集群中的通信難題,為下一代智算基礎(chǔ)設(shè)施建設(shè)提供完整技術(shù)路徑。
隨著DeepSeek推動大模型架構(gòu)向更稀疏的大EP部署演進,通信模式發(fā)生了顯著變化,呈現(xiàn)出更強的隨機性和非對稱性。華為通過引入網(wǎng)絡(luò)級負載均衡技術(shù),成功應(yīng)對了這一挑戰(zhàn),使通信性能提升超過20%,同時顯著降低了P99完成時間。
當前,大模型應(yīng)用正從聊天式的Chat LLM向具備自主決策能力的Agentic AI轉(zhuǎn)型,對token生成速度的要求從50ms提升至10ms以下。這一轉(zhuǎn)變帶來了諸多挑戰(zhàn):推理階段以小消息通信為主,控制面時延占比高;若單純卸載控制面,又會消耗計算資源SM。為此,華為推出了CloudMatrix384超節(jié)點及配套的超節(jié)點網(wǎng)絡(luò),為滿足極致的TPOT需求提供了解決方案。
在多模態(tài)大語言模型(LMM)流量混戰(zhàn)的背景下,華為強調(diào)“網(wǎng)絡(luò)+”并非簡單的帶寬升級,而是要讓網(wǎng)絡(luò)成為AI集群的“第七代算力”。通過智能化的網(wǎng)絡(luò)調(diào)度策略,華為成功提升了推理性能,實現(xiàn)了“四兩撥千斤”的效果。
演講最后,鄭曉龍呼吁業(yè)界共同參與標準建設(shè),與合作伙伴及行業(yè)組織攜手,共同定義大模型時代的下一代智算網(wǎng)絡(luò)接口,推動整個行業(yè)向更高水平發(fā)展。








