中國科學(xué)院計(jì)算技術(shù)研究所的研究團(tuán)隊(duì)在NeurIPS 2025會(huì)議上發(fā)布了一項(xiàng)突破性成果——SpaceServe架構(gòu),該架構(gòu)首次將大語言模型(LLM)推理中的并行-解碼(P/D)分離技術(shù)擴(kuò)展至多模態(tài)場景,通過創(chuàng)新的“空分復(fù)用”機(jī)制徹底解決了多模態(tài)大語言模型(MLLM)推理中的行頭阻塞問題。
隨著MLLM在圖像理解、視頻分析等高分辨率任務(wù)中的廣泛應(yīng)用,其推理流程中的多模態(tài)編碼階段逐漸成為性能瓶頸。傳統(tǒng)系統(tǒng)如vLLM采用“時(shí)間復(fù)用”策略,即GPU需先完成視覺或音頻編碼任務(wù)后,才能切換至文本解碼任務(wù)。這種設(shè)計(jì)在高并發(fā)場景下會(huì)引發(fā)嚴(yán)重問題:一個(gè)高分辨率圖像的編碼可能耗時(shí)數(shù)百毫秒,導(dǎo)致所有等待生成文本的解碼請求被迫阻塞,造成解碼器“饑餓”,輸出token耗時(shí)(TPOT)隨請求量激增而急劇上升,系統(tǒng)吞吐量大幅下降。
研究團(tuán)隊(duì)提出的SpaceServe架構(gòu)通過“空分復(fù)用”技術(shù),將傳統(tǒng)的時(shí)間串行執(zhí)行模式轉(zhuǎn)變?yōu)榭臻g并行執(zhí)行模式。定量分析顯示,視覺編碼器具有計(jì)算密集、內(nèi)存帶寬需求低的特點(diǎn),而文本解碼器則內(nèi)存密集、高度依賴HBM帶寬存儲(chǔ)KV Cache。二者資源需求互補(bǔ),卻在時(shí)間復(fù)用架構(gòu)下被迫串行執(zhí)行,導(dǎo)致GPU資源浪費(fèi)。SpaceServe的核心創(chuàng)新在于將編碼器與解碼器解耦,并利用現(xiàn)代GPU的細(xì)粒度流式多處理器(SM)分區(qū)能力,實(shí)現(xiàn)二者在同一GPU上的并發(fā)執(zhí)行。
該架構(gòu)包含三大關(guān)鍵技術(shù):首先,通過EPD(Encoder-Prefill-Decode)三階段邏輯解耦與物理共置,將多模態(tài)編碼器從共享文本解碼器中完全分離,支持獨(dú)立調(diào)度;其次,采用TWSRFT(Time-Window Shortest Remaining Work First)編碼器調(diào)度策略,按剩余工作量最短優(yōu)先原則批處理編碼請求,避免大圖阻塞小圖,平滑解碼器輸入流;最后,開發(fā)基于資源利用曲線的動(dòng)態(tài)分配運(yùn)行時(shí)(Space Inference Runtime),離線構(gòu)建資源-效用曲線,在線根據(jù)請求元數(shù)據(jù)動(dòng)態(tài)分配SM計(jì)算單元,最小化端到端延遲。
在Qwen2-VL系列模型(2B–72B)上的實(shí)測數(shù)據(jù)顯示,SpaceServe顯著優(yōu)于傳統(tǒng)vLLMv1系統(tǒng)。當(dāng)請求率增加時(shí),vLLM的TPOT從101ms急劇惡化至365ms,而SpaceServe僅從8.85ms微增至12.62ms。根本原因在于,vLLM中編碼器獨(dú)占GPU時(shí)解碼器無法推進(jìn),而SpaceServe通過空分復(fù)用使解碼器在編碼器運(yùn)行期間持續(xù)生成token,徹底解耦了執(zhí)行流程。
與NVIDIA MPS(Multi-Process Service)方案的對比進(jìn)一步驗(yàn)證了SpaceServe的優(yōu)勢。在10 RPS(每秒請求數(shù))條件下,MPS版本的TPOT為132ms,而SpaceServe通過細(xì)粒度SM分區(qū)將延遲降至40.68ms,提速3.3倍。這是因?yàn)镸PS僅在進(jìn)程級(jí)隔離資源,編碼器與解碼器仍會(huì)爭搶同一SM內(nèi)的寄存器、L1緩存等資源,導(dǎo)致緩存污染與執(zhí)行效率下降。而SpaceServe通過SM級(jí)物理分區(qū)實(shí)現(xiàn)了真正的資源隔離,最大化各自執(zhí)行效率。
這項(xiàng)研究無需修改現(xiàn)有模型結(jié)構(gòu),即可兼容Qwen2-VL、Kimi-VL等主流MLLM,且代碼已開源,有望集成至vLLM、SGLang等框架,推動(dòng)多模態(tài)服務(wù)的高效落地。值得注意的是,SpaceServe主要優(yōu)化穩(wěn)態(tài)吞吐(TPOT),對首token延遲(TTFT)影響有限,這與設(shè)計(jì)目標(biāo)一致——聚焦于解碼器的持續(xù)高吞吐,而非單次編碼加速。
項(xiàng)目地址:https://github.com/gofreelee/SpaceServe











