近日,人工智能領(lǐng)域迎來一項突破性進展——THINKING MACHINES團隊開源了一種名為“在線策略蒸餾”(On-Policy Distillation)的新型大語言模型后訓(xùn)練方法。該方法通過融合強化學(xué)習(xí)與監(jiān)督微調(diào)的優(yōu)勢,在數(shù)學(xué)推理、個性化知識遷移等場景中展現(xiàn)出顯著效率提升,相關(guān)技術(shù)細節(jié)已在其官方博客公開。
傳統(tǒng)模型后訓(xùn)練通常面臨兩種范式的權(quán)衡:強化學(xué)習(xí)(RL)雖能通過試錯學(xué)習(xí)直接修正錯誤,但依賴稀疏的最終結(jié)果反饋,導(dǎo)致訓(xùn)練效率低下;監(jiān)督微調(diào)(SFT)通過密集的逐詞指導(dǎo)加速學(xué)習(xí),卻容易因數(shù)據(jù)分布偏差引發(fā)復(fù)合誤差。在線策略蒸餾創(chuàng)新性地將兩者結(jié)合,其核心在于利用高性能教師模型對學(xué)生模型的每一步生成進行實時評分,將稀疏的最終獎勵轉(zhuǎn)化為密集的過程獎勵。
技術(shù)實現(xiàn)層面,該方法通過四個關(guān)鍵步驟構(gòu)建訓(xùn)練框架:首先部署高性能教師模型作為獨立評分模塊,僅計算概率而不參與梯度更新;其次讓學(xué)生模型自主生成完整回答序列,并記錄每一步的對數(shù)概率;隨后教師模型對相同上下文下的生成結(jié)果進行逐詞評估,計算學(xué)生與教師策略的KL散度差異;最終將逆向KL散度作為懲罰信號,驅(qū)使學(xué)生模型減少與教師行為的偏差。
實驗數(shù)據(jù)顯示,在線策略蒸餾在數(shù)學(xué)推理任務(wù)中實現(xiàn)驚人效率提升。以Qwen3系列模型為例,將32B參數(shù)教師模型的能力遷移至8B學(xué)生模型時,該方法僅需150個訓(xùn)練步驟即可將AIME'24數(shù)學(xué)競賽基準(zhǔn)得分從60%提升至70%,綜合計算效率較傳統(tǒng)強化學(xué)習(xí)提高50-100倍,較純監(jiān)督微調(diào)降低9-30倍成本。這種效率優(yōu)勢源于教師模型對關(guān)鍵錯誤路徑的精準(zhǔn)識別——例如在物理常識推理中,系統(tǒng)能優(yōu)先懲罰導(dǎo)致邏輯鏈斷裂的早期錯誤,而非僅關(guān)注最終答案。
在模型個性化場景中,在線策略蒸餾同樣表現(xiàn)出色。研究團隊模擬企業(yè)知識庫遷移實驗時發(fā)現(xiàn),傳統(tǒng)監(jiān)督微調(diào)在注入新知識過程中會導(dǎo)致模型原有指令遵循能力大幅下降(從85%跌至45%)。而采用兩階段訓(xùn)練策略:先通過監(jiān)督微調(diào)學(xué)習(xí)新知識,再利用原始模型作為教師進行在線策略蒸餾,可使指令遵循能力恢復(fù)至83%,同時新知識掌握度從36%提升至41%,有效解決了災(zāi)難性遺忘問題。
從信息論視角分析,在線策略蒸餾的效率突破源于其逐詞監(jiān)督機制。相比強化學(xué)習(xí)每個訓(xùn)練回合僅提供O(1)比特信息,該方法每個序列可提供O(N)比特過程信息(N為序列長度)。這種密集反饋使得模型在長序列任務(wù)中能更精準(zhǔn)地定位錯誤根源,例如在數(shù)學(xué)證明中可區(qū)分計算錯誤與邏輯漏洞。實驗表明,僅使用單個訓(xùn)練提示通過多輪蒸餾,學(xué)生模型性能即可接近使用海量數(shù)據(jù)訓(xùn)練的教師模型水平。
技術(shù)實現(xiàn)層面,該方法已通過Tinker訓(xùn)練API完成驗證,其核心優(yōu)勢在于教師模型僅需計算對數(shù)概率而無需反向傳播,極大降低了計算開銷。研究團隊特別指出,逆向KL散度作為損失函數(shù)具有不可被利用特性,可避免傳統(tǒng)獎勵模型被“欺騙”的問題,同時驅(qū)動模型學(xué)習(xí)教師特定的行為模式而非次優(yōu)策略。
目前,該技術(shù)已開源完整實現(xiàn)代碼,開發(fā)者可通過GitHub訪問Tinker Cookbook中的蒸餾模塊。這項突破為資源受限場景下的模型定制提供了新思路,特別是在需要持續(xù)學(xué)習(xí)新知識的企業(yè)應(yīng)用中,其交替訓(xùn)練模式(監(jiān)督微調(diào)注入知識+在線策略蒸餾恢復(fù)能力)展現(xiàn)出顯著優(yōu)勢。隨著更多實踐案例的積累,在線策略蒸餾有望成為推動大語言模型實用化的關(guān)鍵技術(shù)之一。











