亞馬遜AWS近日宣布,其打造的全球規模最大的AI計算集群之一Project Rainier已正式投入使用。該集群作為超大規模計算基礎設施,集成了近50萬顆自主研發的Trainium2芯片,這些芯片分散部署于美國多個數據中心,通過高速網絡互聯形成強大算力矩陣。
這一項目從立項到落地僅用時不到一年,標志著亞馬遜在AI基礎設施領域邁出關鍵一步。作為AWS的重要合作伙伴,人工智能企業Anthropic已率先在該集群上部署工作負載。據測試數據顯示,Project Rainier提供的計算能力較Anthropic此前訓練模型時使用的系統提升超過五倍,顯著縮短了復雜AI模型的訓練周期。
值得注意的是,Trainium2芯片是亞馬遜針對AI訓練場景專門設計的第二代處理器。該芯片在能效比和計算密度方面實現突破,使得單個集群能夠容納如此龐大的芯片數量。通過分布式架構設計,不同數據中心的計算資源可協同工作,形成邏輯上統一的超級計算平臺。
根據規劃,到2025年末,Anthropic將進一步擴大在該平臺的應用規模,屆時將有超過百萬顆Trainium2芯片投入Claude系列模型的訓練與推理任務。這種算力規模的躍升,不僅將加速大語言模型的迭代速度,也為開發更復雜的AI應用提供了可能。行業分析師指出,此類超大規模計算集群的部署,正在重塑AI產業的技術競爭格局。
目前,Project Rainier已向特定企業客戶開放測試。AWS方面表示,該集群的設計充分考慮了彈性擴展需求,未來可根據用戶需求快速增加計算節點。這種模塊化架構使得基礎設施既能支持千億參數級大模型的訓練,也能滿足實時推理等多樣化場景的需求,為AI技術的商業化落地提供了重要支撐。











