在近日于昆山舉辦的光合組織人工智能創新大會上,中科曙光正式推出全球首套國產萬卡級AI集群系統——scaleX萬卡超集群,并以真機形式完成首次公開展示。該系統憑借多項突破性技術指標,成為國產智算基礎設施領域的里程碑式成果,標志著我國在高端AI算力領域實現從跟跑到局部領跑的跨越。
據中科曙光高級副總裁李斌介紹,該系統專為萬億參數大模型訓練、科學智能計算等前沿場景設計,通過架構創新與系統級優化,在算力密度、網絡性能、能效比等核心指標上達到國際領先水平。系統由16個自主研發的scaleX640超節點構成,通過scaleFabric高速互連網絡實現10240塊AI加速卡協同工作,總算力規模突破5EFlops,相當于500萬臺高性能服務器的計算能力。
在硬件架構層面,scaleX640超節點采用全球首創的單機柜640卡設計,通過浸沒式相變液冷技術與高密度刀片服務器集成,將單機柜算力密度提升至傳統方案的20倍,同時將電源使用效率(PUE)優化至1.04的行業最低水平。這種設計不僅顯著降低數據中心能耗,更通過模塊化架構支持靈活擴展,可滿足從千卡到十萬卡級集群的彈性部署需求。
網絡通信方面,曙光自主研發的scaleFabric系統搭載國內首款400G原生RDMA網卡與交換芯片,實現400Gb/s超寬帶寬與亞微秒級通信延遲。相比傳統InfiniBand網絡,該方案將集群規模擴展能力提升2.33倍,網絡建設成本降低30%,同時通過智能流量調度算法確保萬卡級并發訓練時的數據傳輸零丟包。
針對大模型訓練特有的存儲挑戰,系統創新采用"存算傳"三級協同優化技術。通過芯片級數據預取、系統級緩存加速和應用級流式傳輸的深度融合,使萬卡集群并發讀寫帶寬提升3倍,AI推理響應速度縮短40%,加速卡資源利用率提高55%。這項突破有效解決了傳統架構中存儲瓶頸導致的算力閑置問題。
在運維管理層面,系統構建了數字孿生與智能調度雙引擎。數字孿生平臺可實時映射物理集群運行狀態,實現故障預測準確率達92%的智能運維;智能調度引擎則支持每秒萬級作業分發,可同時管理十萬級用戶請求,確保集群長期可用性達到99.99%的電信級標準。
作為"AI計算開放架構"的旗艦產品,scaleX萬卡超集群已完成與400余個主流大模型的適配優化,支持多品牌加速卡混合部署。在實際應用中,該系統已成功應用于金融風控模型訓練、地質勘探數據處理、氣候模擬等關鍵領域,其中某金融機構的萬億參數模型訓練效率較傳統方案提升6倍。
該系統的推出得益于中科曙光聯合20余家產業鏈伙伴構建的開放生態。通過共享液冷技術、RDMA協議棧等12項關鍵共性技術,生態伙伴可基于統一架構快速開發定制化解決方案,將智算集群研發周期從18個月壓縮至6個月。這種"技術共研、生態共建"的模式,正在推動我國AI基礎設施從單機性能競爭轉向系統能力比拼的新階段。











