阿里云提出的計算池化方案“Aegaeon”近日在計算機系統領域引發廣泛關注。該方案憑借突破性的GPU資源優化技術,成功入選國際頂級學術會議SOSP 2025,標志著系統軟件與AI大模型技術融合取得重要進展。作為ACM SIGOPS主辦的操作系統原理研討會,SOSP年均論文收錄量不足百篇,被譽為計算機系統領域的“學術巔峰”,其入選成果均代表該領域前沿研究水平。
在為期三個月的阿里云模型市場Beta測試中,Aegaeon系統展現出驚人的資源優化能力。面對參數量達720億的數十個大模型服務需求,系統將所需英偉達H20 GPU數量從1192個銳減至213個,降幅達82%。這一數據直接反映出硬件采購成本的顯著下降,對于依賴數千張GPU運行的大型AI服務商而言,這種技術突破具有重大經濟價值。測試數據顯示,傳統架構下17.7%的GPU算力僅用于處理1.35%的請求,資源閑置問題極為突出。
該系統的核心創新在于打破“模型-GPU”一對一綁定模式。通過GPU資源池化技術,Aegaeon實現了多模型共享計算資源。其獨創的Token級動態調度機制,能在每次生成新token后實時判斷是否切換模型,配合組件復用、顯存精細管理和KV緩存同步優化等全棧技術,將模型切換開銷降低97%。這種設計確保了亞秒級響應能力,使單GPU可同時服務7個不同模型,有效吞吐量較主流方案提升1.5至9倍,請求處理能力增強2至2.5倍。
當前AI模型服務存在顯著資源分配失衡問題。以阿里云模型市場為例,少數熱門模型(如Qwen系列)承擔絕大多數用戶請求,而大量“長尾”模型卻長期獨占GPU資源。Aegaeon系統通過精細化資源管理,使GPU利用率獲得質的提升。其技術路線顯示,系統級軟件創新正在成為挖掘硬件潛力的關鍵路徑,這為AI產業發展提供了新的優化方向。
隨著AI模型規模持續擴大,單純依賴硬件算力提升已難以滿足發展需求。Aegaeon系統的實踐表明,通過底層系統軟件優化,可顯著提升現有硬件的使用效率。這種技術路徑不僅降低企業運營成本,更為AI技術普惠化創造了條件。目前該方案核心技術已應用于阿里云百煉平臺,為行業提供了可復制的資源優化范本。











