阿里云與北京大學聯合研發的GPU池化系統Aegaeon,在計算機系統領域頂會SOSP上引發行業震動。該系統通過創新性的資源調度技術,成功將英偉達GPU需求量降低82%,這項突破性成果背后,是對云計算資源利用效率的深度重構。
研究團隊在阿里云Model Studio平臺的運營中發現,17.7%的GPU資源被分配給僅處理1.35%請求的冷門模型,而這類長尾模型在779個統計樣本中占比高達94.1%,平均每秒請求量不足0.2次。傳統"一對一"的GPU分配模式導致兩種極端現象:冷門模型GPU長期閑置,熱門模型在突發流量時又因資源預留不足出現過載。
Aegaeon系統突破性地引入token級動態調度機制,在生成每個token時實時判斷是否需要切換模型。這種"見縫插針"式的資源分配方式,使單個GPU可同時服務7個不同模型。通過組件復用技術減少80%的初始化開銷,顯式內存管理消除碎片化問題,配合細粒度KV緩存同步機制,將模型切換時間從數十秒壓縮至1秒以內。
在16塊H800 GPU組成的測試集群中,系統成功支撐了從60億到720億參數規模的模型服務。與ServerlessLLM、MuxServe等現有系統相比,Aegaeon的請求到達率提升2-2.5倍,有效吞吐量實現1.5至9倍增長。更關鍵的是,這套系統已在阿里云百煉平臺完成三個月生產環境驗證。
實際部署數據顯示,系統服務47個不同規模模型(含28個18億-70億參數小模型和19個320億-720億參數大模型)期間,GPU利用率從13.3%-33.9%提升至48.1%,且未出現任何服務等級目標(SLO)違規或中斷情況。這種資源利用效率的躍升,相當于在相同計算能力下可處理9倍于前的業務量。











