在拉斯維加斯舉辦的年度技術盛會上,亞馬遜云計算部門(AWS)正式推出了新一代自研AI芯片Trainium3,并同步展示了為下一代AI工作負載設計的Trainium3 UltraServers。與此同時,AWS還公布了Trainium4的研發路線圖,引發行業高度關注。
為滿足自身需求并降低運營成本,亞馬遜、谷歌等云服務巨頭早在數年前便開始布局自研云端AI芯片。據AWS披露,其定制芯片業務規模已達數十億美元,Trainium系列芯片全球部署量突破100萬張,成為支撐超大規模AI計算的核心基礎設施之一,僅次谷歌TPU的市場表現。這一數據印證了自研芯片在云服務領域的戰略價值。
Trainium3基于臺積電3nm制程工藝打造,單芯片可提供2.52 PFLOPs(FP8)算力,支持FP32、BF16、MXFP8及新增MXFP4等多種精度格式。內存配置方面,該芯片將HBM3e容量提升至144GB,帶寬達4.9TB/s,并通過強化結構化稀疏性及微縮放硬件支持,顯著優化了大語言模型的訓練與推理效率。AWS宣稱,Trainium3可將AI模型全生命周期成本降低50%,為客戶提供更具性價比的算力服務。
基于全新Neuron Fabric互聯技術,AWS同步推出的Trainium3 UltraServers實現了算力躍升。該系統最多可整合144顆Trainium3芯片,總算力達362 FP8 PFLOPs。實測數據顯示,與上一代Trainium2 UltraServers相比,新系統的原始性能提升4.4倍,性能功耗比提升4倍,能源效率提高40%。在部署GPT-OSS等主流開源模型時,單芯片吞吐量提升3倍,響應延遲縮短4倍,大幅縮短模型訓練周期——原本需數月的任務可壓縮至數周,同時支持更多推理請求,降低項目上線時間與運營成本。
通過EC2 UltraClusters 3.0架構,Trainium3 UltraServers可擴展至最高100萬張芯片的超級集群,規模較上一代提升10倍。目前,該架構已為Anthropic的“Project Rainier”項目提供核心算力支撐,當前部署50萬張Trainium 2芯片,并計劃年底前擴容至100萬張。這一擴展能力進一步鞏固了AWS在超大規模AI計算領域的領先地位。
實際應用中,Trainium3及Trainium3 UltraServers已展現顯著成效。Anthropic、Karakuri、metagenomi、NetoAI、Ricoh、Splash Music等企業反饋,采用該方案后訓練成本較其他方案最多降低50%。這一成果驗證了AWS自研芯片在商業化場景中的競爭力。
關于下一代產品,AWS透露Trainium4正在研發中,雖未公布具體發布時間,但承諾其性能將實現突破性提升:FP4處理性能至少提升6倍,FP8性能提升3倍,內存頻寬提高4倍。更值得關注的是,Trainium4將支持NVIDIA NVLink Fusion高速互連技術,可與Graviton處理器及EFA(Elastic Fabric Adapter)在通用MGX機架中無縫協作,實現與NVIDIA GPU的互操作與性能擴展。這一技術整合或為AI計算生態帶來新的變量。












