在大語(yǔ)言模型領(lǐng)域,提升上下文處理能力一直是科研人員關(guān)注的焦點(diǎn)。當(dāng)前,不同廠商發(fā)布的大語(yǔ)言模型在超長(zhǎng)上下文處理方面取得了顯著進(jìn)展,部分模型已能支持?jǐn)?shù)百萬(wàn)Token的輸入,例如MiniMax-M1、Qwen2.5-1M系列模型,均具備百萬(wàn)Token級(jí)別的處理能力。然而,這場(chǎng)關(guān)于上下文長(zhǎng)度的競(jìng)爭(zhēng)仍在持續(xù),因?yàn)楦L(zhǎng)的上下文處理能力能夠?yàn)槟P驮诮鹑凇⒎伞⑨t(yī)療等領(lǐng)域的長(zhǎng)語(yǔ)境任務(wù)中提供更廣闊的應(yīng)用空間,創(chuàng)造更大的商業(yè)與技術(shù)價(jià)值。
針對(duì)這一目標(biāo),一支科研團(tuán)隊(duì)提出了“通過(guò)有損計(jì)算提高大語(yǔ)言模型推理效率”的研究方案。該方案的核心思路是利用大語(yǔ)言模型對(duì)低精度計(jì)算等“有損操作”產(chǎn)生的噪聲具有較強(qiáng)魯棒性的特點(diǎn),主動(dòng)引入可控的信息損失,以換取推理效率的提升。這種“有損計(jì)算”主要通過(guò)降低計(jì)算或存儲(chǔ)精度來(lái)實(shí)現(xiàn),重點(diǎn)圍繞模型參數(shù)量化、KV Cache壓縮、模型剪枝與知識(shí)蒸餾等路徑展開(kāi)。
在處理醫(yī)療領(lǐng)域長(zhǎng)篇文獻(xiàn)信息提取等任務(wù)時(shí),大語(yǔ)言模型面臨“預(yù)訓(xùn)練長(zhǎng)度限制”和“推理內(nèi)存需求激增”的雙重挑戰(zhàn)。為應(yīng)對(duì)這些挑戰(zhàn),該團(tuán)隊(duì)的研究實(shí)現(xiàn)了兩項(xiàng)關(guān)鍵技術(shù)突破。在算法層面,通過(guò)粗化遠(yuǎn)距離標(biāo)記的位置信息,將模型的語(yǔ)境長(zhǎng)度擴(kuò)展至原有水平的8倍;在系統(tǒng)層面,將過(guò)往標(biāo)記的中間狀態(tài)(KV Cache)量化為2比特?cái)?shù)字,實(shí)現(xiàn)了8倍內(nèi)存效率提升和3.5倍時(shí)鐘時(shí)間加速,且不影響模型性能。
在具體實(shí)施中,粗化位置信息的策略并非靜態(tài),而是根據(jù)上下文需求動(dòng)態(tài)調(diào)整。而將KV Cache壓縮至2比特是一項(xiàng)激進(jìn)的優(yōu)化,團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)驗(yàn)證了其在低精度表示下仍能保持模型準(zhǔn)確率。KV Cache是大模型訓(xùn)練和推理中的重要中間存儲(chǔ)狀態(tài),直接關(guān)聯(lián)GPU內(nèi)存。例如,A100 80GB GPU中,超過(guò)90%的內(nèi)存用于存儲(chǔ)KV Cache。將其從16比特壓縮至2比特,相當(dāng)于將存儲(chǔ)量提升近10倍,顯著降低了硬件成本。
目前,該方案主要在llama模型上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,相關(guān)研究成果已發(fā)表于2024年。團(tuán)隊(duì)開(kāi)發(fā)的AutoKeras等開(kāi)源項(xiàng)目已被廣泛采用,此次的有損計(jì)算技術(shù)也已被hugging face的transformer和llama.cpp等主流開(kāi)源軟件包采納。與混合專家模型(MoE)等技術(shù)相比,該方案在哲學(xué)上追求效率與準(zhǔn)確率的平衡,但在技術(shù)路徑上完全不同。MoE通過(guò)稀疏性解決問(wèn)題,而粗化位置信息方法則要求模型讀完所有內(nèi)容,但無(wú)需記憶精確位置。
在應(yīng)用場(chǎng)景方面,該方案目前主要針對(duì)語(yǔ)言大模型,在多模態(tài)大模型或其他智能體上的效果尚未充分驗(yàn)證。實(shí)驗(yàn)表明,在問(wèn)答類(lèi)任務(wù)中,壓縮至2比特時(shí)模型準(zhǔn)確率不會(huì)下降,但在生成程序等對(duì)精度要求極高的任務(wù)中可能影響準(zhǔn)確性。團(tuán)隊(duì)在醫(yī)療健康領(lǐng)域開(kāi)發(fā)了一個(gè)基于罕見(jiàn)病的問(wèn)診系統(tǒng),用戶可通過(guò)輸入癥狀查詢可能的罕見(jiàn)病,效果顯著。由于大模型能夠整合大量統(tǒng)計(jì)信息,該方案在法律和醫(yī)療等場(chǎng)景中仍具有應(yīng)用潛力。
關(guān)于硬件協(xié)同設(shè)計(jì),該方案目前專注于GPU層面的優(yōu)化,尚未涉及特定硬件的變革。然而,團(tuán)隊(duì)認(rèn)為,未來(lái)可能需要新的模型架構(gòu)在預(yù)訓(xùn)練階段直接融入稀疏性設(shè)計(jì),而非僅在推理階段進(jìn)行補(bǔ)救。該方案具有“即插即用”的特點(diǎn),實(shí)現(xiàn)原理簡(jiǎn)單易懂,因此用戶數(shù)量眾多。目前,團(tuán)隊(duì)正探索2比特壓縮在實(shí)際中的應(yīng)用邊界,以及理論研究與系統(tǒng)落地的結(jié)合方向。











