在人工智能領(lǐng)域,大模型的算力需求與訓(xùn)練成本一直是制約行業(yè)發(fā)展的關(guān)鍵因素。然而,由前OpenAI首席技術(shù)官M(fèi)ira Murati主導(dǎo)的Thinking Machines Lab團(tuán)隊(duì),憑借一項(xiàng)名為“在線策略蒸餾”的創(chuàng)新技術(shù),為行業(yè)帶來(lái)了顛覆性變革。該技術(shù)通過(guò)優(yōu)化訓(xùn)練流程,使小規(guī)模模型在性能上逼近大型模型,同時(shí)大幅降低計(jì)算資源消耗,為中小企業(yè)和個(gè)人開(kāi)發(fā)者打開(kāi)了高性能AI的普及之門(mén)。
最新實(shí)驗(yàn)數(shù)據(jù)顯示,一個(gè)僅有80億參數(shù)的小模型,在經(jīng)過(guò)“在線策略蒸餾”方法訓(xùn)練后,其性能達(dá)到了320億參數(shù)大模型的70%。更令人矚目的是,這一成果的訓(xùn)練成本較傳統(tǒng)方法降低了90%,效率提升了50至100倍。以數(shù)學(xué)推理任務(wù)AIME'24為例,傳統(tǒng)強(qiáng)化學(xué)習(xí)方法需耗費(fèi)17,920個(gè)GPU小時(shí)才能達(dá)到68%的準(zhǔn)確率,而采用該技術(shù)的Qwen3-8B模型僅用150步訓(xùn)練便實(shí)現(xiàn)了70%的準(zhǔn)確率,計(jì)算開(kāi)銷幾乎可以忽略不計(jì)。
“在線策略蒸餾”的核心優(yōu)勢(shì)在于其“每token密集反饋”機(jī)制。傳統(tǒng)強(qiáng)化學(xué)習(xí)僅在任務(wù)完成后給予模型稀疏獎(jiǎng)勵(lì),而該技術(shù)通過(guò)教師模型對(duì)學(xué)生生成的每個(gè)token進(jìn)行實(shí)時(shí)評(píng)分,提供連續(xù)且精準(zhǔn)的指導(dǎo)信號(hào)。這種機(jī)制不僅加速了模型的收斂速度,還有效避免了長(zhǎng)序列訓(xùn)練中的“策略漂移”問(wèn)題,使小模型在有限資源下也能穩(wěn)定輸出高質(zhì)量結(jié)果。
該技術(shù)還成功解決了AI模型在學(xué)習(xí)新知識(shí)時(shí)的“災(zāi)難性遺忘”難題。實(shí)驗(yàn)表明,某模型在微調(diào)后指令遵循能力從85%驟降至45%,而通過(guò)“在線策略蒸餾”的實(shí)時(shí)軌跡采樣與教師校正,模型在保留41%新知識(shí)的同時(shí),將原有能力迅速恢復(fù)至83%,遠(yuǎn)超傳統(tǒng)微調(diào)或離線蒸餾方法。這一特性使其特別適用于企業(yè)場(chǎng)景,模型可動(dòng)態(tài)學(xué)習(xí)業(yè)務(wù)新規(guī)、產(chǎn)品文檔,而不丟失基礎(chǔ)對(duì)話、工具調(diào)用等核心能力,實(shí)現(xiàn)真正的“持續(xù)進(jìn)化”。
從技術(shù)實(shí)現(xiàn)來(lái)看,“在線策略蒸餾”的架構(gòu)極為簡(jiǎn)潔,僅需四步閉環(huán):首先部署教師模型(如320億參數(shù)大模型)作為監(jiān)督源;其次由學(xué)生模型生成響應(yīng)軌跡;接著教師模型計(jì)算每個(gè)token的對(duì)數(shù)概率;最后以反向KL散度為損失函數(shù),優(yōu)化學(xué)生模型的參數(shù)。這一過(guò)程無(wú)需復(fù)雜的基礎(chǔ)設(shè)施,兼容現(xiàn)有蒸餾框架,即可實(shí)現(xiàn)“低成本高精度”的性能提升。研究指出,該技術(shù)可擴(kuò)展至代碼生成、多模態(tài)推理等任務(wù),為“教師-學(xué)生”協(xié)同訓(xùn)練開(kāi)辟了新路徑。
作為OpenAI前首席技術(shù)官,Mira Murati將大模型訓(xùn)練的實(shí)戰(zhàn)經(jīng)驗(yàn)融入小模型生態(tài)構(gòu)建中。在AI安全與對(duì)齊日益重要的背景下,“在線策略蒸餾”不僅提升了訓(xùn)練效率,還通過(guò)可控的知識(shí)遷移增強(qiáng)了模型行為的可預(yù)測(cè)性。行業(yè)專家認(rèn)為,該技術(shù)將推動(dòng)開(kāi)源模型與邊緣AI的快速發(fā)展——當(dāng)80億參數(shù)模型能勝任320億參數(shù)模型的任務(wù)時(shí),手機(jī)、物聯(lián)網(wǎng)設(shè)備乃至本地服務(wù)器都將成為高性能AI的載體,智能技術(shù)正從“云端壟斷”走向“人人可及”。
這場(chǎng)由Murati引領(lǐng)的訓(xùn)練革命,正在改變AI領(lǐng)域的競(jìng)爭(zhēng)格局。小模型通過(guò)技術(shù)革新實(shí)現(xiàn)“聰明”如大模型,標(biāo)志著智能技術(shù)民主化時(shí)代的開(kāi)啟。隨著“在線策略蒸餾”技術(shù)的普及,高性能AI將不再局限于少數(shù)科技巨頭,而是成為更多企業(yè)和開(kāi)發(fā)者觸手可及的工具。







