華為近日宣布正式開源UCM(Unified Cache Manager)推理記憶數(shù)據(jù)管理技術(shù),這項針對AI推理加速的解決方案旨在破解長序列推理效率低、成本高的行業(yè)難題。作為以KV Cache和記憶管理為核心的推理加速套件,UCM通過推理框架、算力、存儲三層協(xié)同優(yōu)化,為全場景提供系列化推理加速方案。
技術(shù)發(fā)布三個月后,華為兌現(xiàn)開源承諾,在ModelEngine社區(qū)開放了UCM的基礎(chǔ)框架與工具鏈。開發(fā)者可通過GitCode和Github雙平臺獲取源代碼及技術(shù)文檔,其中GitCode地址為https://gitcode.com/ModelEngine/unified-cache-management,Github地址為https://github.com/ModelEngine-Group/unified-cache-management。該技術(shù)主要面向企業(yè)用戶,旨在實現(xiàn)AI推理的體驗優(yōu)化與成本降低。
在Agentic AI時代,模型尺寸的指數(shù)級增長導致KV緩存容量突破HBM存儲極限。UCM通過算法實現(xiàn)記憶熱度分級,可在HBM、DRAM、SSD等存儲介質(zhì)間自動調(diào)配數(shù)據(jù),形成多級緩存體系。這種設(shè)計不僅提升系統(tǒng)整體效率,更顯著降低對高端存儲硬件的依賴,為資源受限場景提供可行路徑。
技術(shù)架構(gòu)方面,UCM包含四大核心模塊:UCM稀疏化模塊作為統(tǒng)一基類,支持多種稀疏算法的無感插拔;稀疏化KV管理器實現(xiàn)算法策略與推理引擎的解耦;KV Cache存儲組件提供標準化存儲接口,支持前綴緩存與異構(gòu)存儲對接;UCM連接器則確保數(shù)據(jù)在推理引擎與存儲組件間高效傳輸。架構(gòu)圖中灰色模塊代表vLLM 0.9.2現(xiàn)有組件,綠色模塊為UCM新增功能,淺綠色部分預(yù)留未來擴展接口。
基于該架構(gòu),UCM具備四項關(guān)鍵能力:稀疏注意力機制通過動態(tài)篩選有效信息提升計算效率;前綴緩存技術(shù)減少重復(fù)計算;預(yù)填充卸載功能優(yōu)化顯存占用;異構(gòu)PD解耦方案簡化混合計算資源管理。這些特性共同構(gòu)成應(yīng)對長序列推理的技術(shù)矩陣,實測數(shù)據(jù)顯示首Token時延最高降低90%,系統(tǒng)吞吐量提升達22倍,上下文窗口擴展能力提升10倍。
開發(fā)團隊指出,當前主流方案通過將全量KV數(shù)據(jù)卸載至外部存儲來緩解GPU顯存壓力,但不同稀疏算法的適配性問題始終存在。UCM的創(chuàng)新之處在于構(gòu)建公共框架,允許各類稀疏化算法以插件形式接入,這種設(shè)計既保持了技術(shù)開放性,又確保了系統(tǒng)穩(wěn)定性。特別在處理超長序列時,其無需訓練的稀疏注意力檢索方法與前綴緩存機制形成協(xié)同效應(yīng),顯著提升推理性能。
隨著邊緣計算與終端AI的爆發(fā)式增長,推理任務(wù)對算力密度和內(nèi)存帶寬的要求持續(xù)攀升。UCM的開源為行業(yè)提供了新的技術(shù)范式,其存算分離架構(gòu)與異構(gòu)資源管理方案,有望降低AI推理部署門檻,推動技術(shù)從實驗室走向商業(yè)化應(yīng)用。特別是在資源受限的邊緣設(shè)備場景,該技術(shù)通過優(yōu)化數(shù)據(jù)流轉(zhuǎn)路徑,為實時推理提供了性能與成本的平衡方案。











