在人工智能領域,一場關于推理架構的變革正悄然興起。一種名為“解耦推理”的新理念,從實驗室概念迅速成長為行業新標準,被眾多主流大模型推理框架采納,推動AI邁向模塊化智能的新階段。這一變革的背后,是加州大學圣地亞哥分校“Hao AI Lab”提出的DistServe系統,其通過將大模型推理過程拆分為“預填充”和“解碼”兩個獨立階段,為行業帶來了全新的思路。
在DistServe出現之前,大多數推理框架采用“同址部署”方式,即在同一塊GPU上同時執行“預填充”和“解碼”。這種“連續批處理”技術雖曾成為業界標準,卻存在兩個根本性限制。一方面,“預填充”和“解碼”共享GPU,延遲會相互干擾,即便采取緩解措施,大型預填充請求仍可能導致輸出延遲大幅增加,尤其在負載突發時更為明顯。另一方面,二者耦合伸縮,資源分配器需同時滿足兩種最壞情況的延遲需求,導致計算資源利用率低下,整體效率不佳。隨著部署規模擴大和延遲要求提高,這些問題帶來的成本劇增,促使DistServe應運而生。
DistServe通過將“預填充”與“解碼”拆分為獨立計算池,徹底打破二者干擾,實現獨立伸縮,使其能各自滿足關鍵延遲指標要求,同時保持高整體效率。然而,這一顛覆性想法最初并未獲得廣泛采用。2024年大部分時間里,開源社區因對原有推理系統進行深度架構重構需大量工程投入,對其持保留態度。但到了2025年,局面逆轉,幾乎所有主流大模型推理棧都將“解耦”視為默認方案。
這一轉變主要源于多方面因素。首先,企業將大模型作為核心業務組件,“延遲控制”成為關鍵,DistServe讓“預填充”和“解碼”延遲易于觀測和控制,且在真實生產環境中可持續優化。其次,隨著模型體量擴大和訪問流量激增,推理系統需擴展到數百乃至上千張GPU,解耦架構優勢凸顯,可為不同階段獨立分配資源,靈活配合多種并行策略,實現極高資源利用率。“解耦”增強了系統架構的可組合性。
如今,“解耦推理”已成為大模型推理的主要設計原則之一,在多個層面得到廣泛應用。在編排層,NVIDIA Dynamo是專為“預填充-解碼解耦”設計的先進開源數據中心級分布式推理框架,llm-d、Ray Serve等也基于解耦推理架構。在存儲層,芝加哥大學團隊開發的LMCache通過加速“預填充”實例到“解碼”實例的KV緩存移動優化解耦過程,Kimi AI團隊開發的MoonCake以“KVCache中心化”為核心,構建面向解耦的LLM推理平臺,二者已成為大規模LLM推理系統的標準存儲后端。在核心引擎層,幾乎所有開源LLM推理引擎,如SGLang與vLLM,都原生支持“解耦推理”。
隨著“預填充-解碼解耦”理念逐漸成熟,學術界和工業界正探索新方向,推動解耦架構邁向“通用分解式推理”階段。在計算層面,研究者開始在模型層級上細化解耦粒度。2025年,MIT CSAIL與DeepSeek Research提出“Attention–FFN Disaggregation”框架,將Transformer的注意力模塊與前饋層分別放置于不同計算節點,使不同節點利用異構硬件優勢,未來推理系統可能每個節點運行模型的一個功能子模塊。跨層級的流水線分解也成為解耦架構的自然延伸,多個研究團隊提出框架,如Stanford DAWN的“DisPipe”系統、meta AI的“HydraPipe”、Alibaba DAI-Lab的“PipeShard”,這些系統讓推理過程在不同節點間以“階段流”方式流動,實現全局流水線化推理,更適合未來多芯片異構系統。
在跨模態與多模型方面,隨著多模態大模型出現,推理系統面臨更復雜資源編排問題,未來趨勢是將多模態推理解耦為多個模態子推理流,再在編排層通過調度器異步融合。同時,在推理系統中同時運行多個LLM或專用子模型變得常見,這些架構天然適合解耦化設計。
內存與緩存體系的解耦也是未來研究方向。當前解耦體系依賴“集中式KV緩存池”或“共享SSD集群”,未來要讓緩存體系實現多層解耦與自治調度。MIT與ETH Zürich的研究者提出HiKV框架,將KV緩存劃分為GPU本地緩存、節點共享緩存、分布式持久緩存三個層次,系統根據上下文熱度自動遷移KV片段,使解耦推理的內存管理更具彈性。一些硬件廠商已探索原生支持解耦架構的芯片,未來“解耦推理”將演化為軟硬件一體化體系。
從深度學習系統“從分散到集中”的趨勢,到如今“從集中到解耦”的反轉,并非倒退,而是成熟的標志。AI系統正走向模塊化智能,不同功能模塊可獨立演化、擴展和優化,“解耦推理”正是這一趨勢的起點,未來或許將看到“解耦學習”“解耦推理”“解耦認知”三者融合的智能架構體系。









