在計算機系統領域,一場關于AI模型服務資源優化的突破性成果引發廣泛關注。阿里云提出的GPU資源池化解決方案“Aegaeon”,憑借其創新性入選全球頂級學術會議SOSP 2025,為解決AI大模型服務中的硬件資源浪費問題提供了全新思路。
作為計算機系統領域的“奧斯卡”級會議,SOSP(操作系統原理研討會)由ACM SIGOPS主辦,每年僅收錄數十篇具有代表性的論文。本屆會議上,系統軟件與AI大模型的深度融合成為核心趨勢,而Aegaeon系統的入選,標志著該領域在資源管理技術上的重大進展。
傳統AI模型服務中,“一個模型綁定一個GPU”的模式導致嚴重資源浪費。以阿里云模型市場為例,測試數據顯示,17.7%的GPU算力僅用于處理1.35%的用戶請求,大量“長尾”模型長期獨占硬件資源,而熱門模型如Qwen則需承擔絕大多數流量。這種失衡直接推高了企業的硬件采購成本,尤其是對于需要部署數千張GPU的大型服務商而言,優化需求迫在眉睫。
Aegaeon系統的核心創新在于打破硬件與模型的靜態綁定。通過Token級動態調度技術,系統在每次生成下一個token后實時判斷是否切換模型,實現資源的精細化管理。配合組件復用、顯存優化和KV緩存同步等全棧技術,模型切換的開銷被壓縮至原有水平的3%,確保亞秒級響應能力。測試表明,該系統可支持單GPU同時運行7個不同模型,有效吞吐量較主流方案提升1.5至9倍,請求處理能力增強2至2.5倍。
在為期三個月的Beta測試中,Aegaeon系統展現了驚人的資源優化效果。面對參數量達720億的大模型集群,其所需的英偉達H20 GPU數量從1192張銳減至213張,削減比例達82%。這一數據直接轉化為硬件采購成本的顯著下降,為行業提供了可復制的降本方案。
當前,全球學術界與工業界正聚焦于系統軟件層面的創新。隨著AI模型規模持續擴大,單純依賴硬件算力提升已難以滿足需求,通過軟件技術挖掘現有硬件潛力成為關鍵。Aegaeon系統的實踐表明,資源池化與動態調度技術能夠有效釋放被閑置的GPU算力,為AI大模型的規模化部署提供經濟可行的解決方案。











