國產(chǎn)算力領(lǐng)域迎來重大突破——記憶張量科技有限公司與商湯科技大裝置團(tuán)隊(duì)聯(lián)合宣布,在國產(chǎn)GPGPU集群上成功部署全球首個(gè)以“記憶—計(jì)算—調(diào)度”一體化為核心的PD分離商用推理集群,并在真實(shí)生產(chǎn)環(huán)境中實(shí)現(xiàn)穩(wěn)定運(yùn)行。測試數(shù)據(jù)顯示,該方案綜合推理性價(jià)比達(dá)到同代英偉達(dá)A100的1.5倍,標(biāo)志著國產(chǎn)算力體系首次在大模型商業(yè)化落地中展現(xiàn)出體系級競爭力。
這一突破源于對傳統(tǒng)PD分離技術(shù)的深度重構(gòu)。傳統(tǒng)方案僅通過硬件隔離優(yōu)化推理性能,但受限于物理架構(gòu),性能提升存在天然瓶頸。聯(lián)合團(tuán)隊(duì)創(chuàng)新性地將PD分離從硬件優(yōu)化升級為記憶中心的設(shè)計(jì)范式,通過記憶張量自主研發(fā)的MemOS系統(tǒng),將大模型認(rèn)知結(jié)構(gòu)分解為參數(shù)記憶、激活記憶、明文記憶三類,構(gòu)建起跨時(shí)間尺度的智能調(diào)度鏈路。系統(tǒng)能夠精準(zhǔn)判斷計(jì)算任務(wù)的前移時(shí)機(jī)、保留策略及淘汰規(guī)則,使PD分離架構(gòu)的潛力得到充分釋放。
在具體實(shí)現(xiàn)層面,商湯科技大裝置提供了底層支撐:其IaaS層高效算力池與智能調(diào)度系統(tǒng)為模型推理構(gòu)建了穩(wěn)定基礎(chǔ),Ignite框架通過多后端適配、KVCache優(yōu)化等手段形成完整優(yōu)化鏈路;算豐信息則負(fù)責(zé)集群算力管理,確保高性能GPGPU資源、存儲(chǔ)及網(wǎng)絡(luò)的高效協(xié)同。三方協(xié)作下,MemOS的記憶體系被映射為清晰的物理分工:Prefill域(P域)作為“記憶工廠”集中處理影子上下文預(yù)測與KV Cache預(yù)生成,Decode域(D域)則專注實(shí)時(shí)交互解碼,兩者通過高帶寬互聯(lián)實(shí)現(xiàn)跨節(jié)點(diǎn)KV Cache“即產(chǎn)即用”,傳輸開銷降低超40%。
生產(chǎn)級評測數(shù)據(jù)驗(yàn)證了方案優(yōu)勢:在2k輸入、1k輸出、首字生成時(shí)間(TTFT)小于2秒的嚴(yán)苛條件下,集群整體吞吐量從107.85 tokens/s提升至189.23 tokens/s,增幅達(dá)75%;單卡并發(fā)能力從25.00提升至29.42,提升20%;TTFT全程穩(wěn)定達(dá)標(biāo),Decode域因職責(zé)單一化避免了資源競爭。記憶張量技術(shù)負(fù)責(zé)人比喻稱:“這相當(dāng)于為高速算力通道配備了精密的交通指揮系統(tǒng),使每個(gè)計(jì)算單元都能發(fā)揮最大效能。”
該成果的突破性在于實(shí)現(xiàn)了從技術(shù)優(yōu)化到范式變革的跨越。傳統(tǒng)PD分離僅關(guān)注硬件層面的計(jì)算任務(wù)分配,而聯(lián)合方案通過MemOS將業(yè)務(wù)調(diào)度邏輯注入記憶單元,使推理過程從靜態(tài)計(jì)算轉(zhuǎn)向動(dòng)態(tài)流水線。例如,在C端高并發(fā)場景中,系統(tǒng)可自動(dòng)調(diào)整記憶保留策略,確保關(guān)鍵任務(wù)優(yōu)先處理;在長文本生成場景下,激活記憶機(jī)制能動(dòng)態(tài)平衡計(jì)算資源,避免性能衰減。這種設(shè)計(jì)使國產(chǎn)GPU不再局限于“能運(yùn)行大模型”,而是具備承載R1級C端業(yè)務(wù)的完整體系能力。
基于此次實(shí)踐,雙方計(jì)劃進(jìn)一步拓展合作邊界:一方面,將構(gòu)建更大規(guī)模的記憶驅(qū)動(dòng)流水線推理底座,整合影子上下文生成、多級緩存管理、AIOps監(jiān)控等模塊,形成可演進(jìn)的基礎(chǔ)設(shè)施體系;另一方面,將在Prefill行為預(yù)測自治化、跨任務(wù)長時(shí)記憶一致性等前沿領(lǐng)域展開探索,為具身智能、復(fù)雜任務(wù)編排等場景提供技術(shù)支撐。業(yè)內(nèi)專家指出,這一突破標(biāo)志著國產(chǎn)算力正從“參數(shù)計(jì)算”向“記憶計(jì)算”轉(zhuǎn)型,有望在AI技術(shù)競爭中定義下一代推理范式。








