當(dāng)大型語(yǔ)言模型處理復(fù)雜問(wèn)題時(shí),常面臨一個(gè)關(guān)鍵抉擇:是廣泛嘗試多種解法(探索),還是依賴已有經(jīng)驗(yàn)(利用)?傳統(tǒng)認(rèn)知中,這兩者如同天平兩端,只能選擇其一。但清華大學(xué)深圳國(guó)際研究生院聯(lián)合加州大學(xué)洛杉磯分校、深圳技術(shù)大學(xué)的研究團(tuán)隊(duì),通過(guò)一項(xiàng)創(chuàng)新研究顛覆了這一觀念。他們發(fā)現(xiàn),在模型內(nèi)部的深層語(yǔ)義空間中,探索與利用并非對(duì)立,而是可以協(xié)同增強(qiáng)。該成果以論文形式發(fā)表于預(yù)印本平臺(tái)arXiv(編號(hào):arXiv:2509.23808v2),為AI推理能力提升開(kāi)辟了新路徑。
研究團(tuán)隊(duì)將視角從“輸出詞匯”轉(zhuǎn)向“思維過(guò)程”,聚焦模型處理問(wèn)題時(shí)的隱藏狀態(tài)——這些未被直接觀察的語(yǔ)義表征,如同人類思考時(shí)未說(shuō)出口的想法。通過(guò)引入“有效排序”這一數(shù)學(xué)工具,他們量化了模型在語(yǔ)義空間中的探索行為。與傳統(tǒng)矩陣排序僅統(tǒng)計(jì)維度數(shù)量不同,有效排序能分析維度的“質(zhì)量分布”,就像評(píng)估探險(xiǎn)路線時(shí)不僅看數(shù)量,還要看路線是否均衡利用。
基于有效排序,研究團(tuán)隊(duì)進(jìn)一步提出動(dòng)態(tài)指標(biāo):有效排序速度衡量信息獲取效率,反映利用能力;有效排序加速度則捕捉信息獲取速度的變化趨勢(shì)。正值表示思維活躍度增加,負(fù)值意味著推理趨于停滯。實(shí)驗(yàn)發(fā)現(xiàn),正確推理路徑中,有效排序加速度始終保持較高值,而錯(cuò)誤路徑往往同時(shí)出現(xiàn)高探索和高利用指標(biāo),表明過(guò)度探索與過(guò)度信息獲取可能導(dǎo)致推理偏離正確方向。
這一發(fā)現(xiàn)徹底改變了傳統(tǒng)訓(xùn)練方法的設(shè)計(jì)思路。研究團(tuán)隊(duì)開(kāi)發(fā)的VERL(速度利用排序?qū)W習(xí))方法,通過(guò)實(shí)時(shí)監(jiān)控隱藏狀態(tài)的動(dòng)態(tài)演化,利用有效排序加速度作為“智能調(diào)度器”。當(dāng)模型可能過(guò)度自信時(shí),系統(tǒng)增強(qiáng)探索激勵(lì);當(dāng)推理可能停滯時(shí),則加強(qiáng)利用獎(jiǎng)勵(lì)。這種雙通道激勵(lì)機(jī)制如同為AI安裝了雙引擎,既能預(yù)防錯(cuò)誤,又能鞏固有效推理。
VERL的創(chuàng)新不僅在于機(jī)制設(shè)計(jì),更在于其穩(wěn)定性保障。由于有效排序加速度具有理論上的O(1)增長(zhǎng)穩(wěn)定性,它為訓(xùn)練提供了可靠的指導(dǎo)信號(hào)。實(shí)驗(yàn)中,VERL在多種語(yǔ)言模型和數(shù)學(xué)推理基準(zhǔn)測(cè)試中均表現(xiàn)出色。以Llama-3.2-3B-Instruct模型為例,在AIME24數(shù)據(jù)集上,應(yīng)用VERL后準(zhǔn)確率從3.3%提升至13.3%;在高考2024數(shù)據(jù)集這一高難度測(cè)試中,準(zhǔn)確率提升達(dá)21.4%。
在Pass@k測(cè)試中,VERL的優(yōu)勢(shì)更為突出。這類測(cè)試要求模型生成多個(gè)解答,只要有一個(gè)正確即算成功。VERL訓(xùn)練的模型在某些數(shù)據(jù)集上,Pass@k的改進(jìn)幅度超過(guò)Pass@1,直接證明了其在增強(qiáng)探索能力方面的有效性。消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證,僅使用探索或利用相關(guān)項(xiàng)均無(wú)法實(shí)現(xiàn)穩(wěn)定性能提升,只有兩者結(jié)合才能持續(xù)改進(jìn)。
實(shí)際應(yīng)用案例生動(dòng)展示了VERL的優(yōu)勢(shì)。在涉及負(fù)數(shù)比較的數(shù)學(xué)問(wèn)題中,傳統(tǒng)方法訓(xùn)練的模型錯(cuò)誤認(rèn)為-1小于-13,而VERL訓(xùn)練的模型能正確處理這類基礎(chǔ)概念。在房屋計(jì)數(shù)應(yīng)用題中,傳統(tǒng)模型忽略約束條件,錯(cuò)誤推斷每條街道只有10棟房屋;VERL模型則正確理解約束,得出每條街道20棟房屋的結(jié)論。在微分方程求解中,傳統(tǒng)模型常忽略“純指數(shù)”約束,給出包含多項(xiàng)式和三角函數(shù)的通解;VERL模型則嚴(yán)格遵循要求,只給出符合條件的指數(shù)解。
VERL的成功源于對(duì)模型內(nèi)部表征動(dòng)態(tài)的深入理解。傳統(tǒng)方法在詞匯層面觀察到的探索-利用權(quán)衡,在隱藏狀態(tài)層面幾乎消失。這是因?yàn)樵~匯輸出是高度壓縮的結(jié)果,而隱藏狀態(tài)保留了更豐富的語(yǔ)義信息。在這個(gè)更豐富的表征空間中,模型有足夠“空間”同時(shí)進(jìn)行探索和利用。有效排序加速度作為元控制信號(hào),能前瞻性地調(diào)節(jié)推理過(guò)程,引導(dǎo)模型走向更健康的推理路徑。
這項(xiàng)研究不僅提出了有效的技術(shù)方法,更從根本上改變了對(duì)AI推理過(guò)程的理解。它挑戰(zhàn)了探索-利用權(quán)衡的傳統(tǒng)認(rèn)知,開(kāi)創(chuàng)了基于語(yǔ)義表征動(dòng)態(tài)性進(jìn)行模型優(yōu)化的新范式。通過(guò)多尺度分析,研究團(tuán)隊(duì)獲得了單一尺度分析無(wú)法提供的深層洞察,為AI系統(tǒng)的改進(jìn)開(kāi)辟了全新方向。VERL代表的“質(zhì)量提升”型改進(jìn)路徑,在當(dāng)前AI發(fā)展面臨資源和環(huán)境約束的背景下,具有特殊意義。
Q&A
Q1:VERL方法與傳統(tǒng)強(qiáng)化學(xué)習(xí)方法的核心差異是什么?
A:傳統(tǒng)方法基于詞匯層面分析,認(rèn)為探索和利用只能二選一;VERL則深入語(yǔ)義表征空間,發(fā)現(xiàn)兩者可解耦,并通過(guò)有效排序及其導(dǎo)數(shù)同時(shí)增強(qiáng)這兩種能力,如同為AI配備智能雙引擎。
Q2:為何有效排序加速度能作為可靠的控制信號(hào)?
A:該指標(biāo)具有O(1)增長(zhǎng)穩(wěn)定性,不會(huì)因問(wèn)題規(guī)模或序列長(zhǎng)度變化而劇烈波動(dòng)。正確推理路徑中,此指標(biāo)往往保持較高值,而錯(cuò)誤推理中表現(xiàn)不佳,因此可區(qū)分推理質(zhì)量并指導(dǎo)訓(xùn)練。
Q3:VERL方法的實(shí)際應(yīng)用效果如何?
A:實(shí)驗(yàn)顯示,VERL在多種數(shù)學(xué)推理任務(wù)中顯著提升性能,高考2024數(shù)據(jù)集上準(zhǔn)確率提升達(dá)21.4%。更重要的是,它不僅提高準(zhǔn)確率,還增強(qiáng)推理多樣性,使AI能使用更豐富的解題策略。











