在人工智能訓(xùn)練領(lǐng)域,一項(xiàng)突破性研究為強(qiáng)化學(xué)習(xí)訓(xùn)練帶來了革命性轉(zhuǎn)變。由meta領(lǐng)銜,聯(lián)合德克薩斯大學(xué)奧斯汀分校、倫敦大學(xué)學(xué)院等頂尖機(jī)構(gòu)的研究團(tuán)隊(duì),在arXiv平臺發(fā)布了題為《The Art of Scaling Reinforcement Learning Compute for LLMs》的論文,首次提出了一套科學(xué)化、可預(yù)測的強(qiáng)化學(xué)習(xí)訓(xùn)練方法,使這一長期依賴經(jīng)驗(yàn)與直覺的領(lǐng)域邁向科學(xué)化新階段。
強(qiáng)化學(xué)習(xí)訓(xùn)練被比喻為培養(yǎng)AI的“思考能力”。傳統(tǒng)預(yù)訓(xùn)練階段如同基礎(chǔ)教育,通過海量文本輸入讓模型掌握語言規(guī)律;而強(qiáng)化學(xué)習(xí)則像專項(xiàng)技能訓(xùn)練,通過獎懲機(jī)制引導(dǎo)模型形成正確推理邏輯。然而,這一過程長期缺乏統(tǒng)一標(biāo)準(zhǔn),不同團(tuán)隊(duì)如同各自摸索的廚師,難以預(yù)測訓(xùn)練效果。更嚴(yán)峻的是,高昂的計(jì)算成本讓大規(guī)模實(shí)驗(yàn)成為少數(shù)巨頭的特權(quán),中小團(tuán)隊(duì)只能依賴有限經(jīng)驗(yàn)。
研究團(tuán)隊(duì)直面這一挑戰(zhàn),投入超40萬GPU小時(shí)計(jì)算資源(相當(dāng)于高性能計(jì)算機(jī)連續(xù)運(yùn)行數(shù)千年),系統(tǒng)探索強(qiáng)化學(xué)習(xí)訓(xùn)練規(guī)律。他們發(fā)現(xiàn),AI模型在強(qiáng)化學(xué)習(xí)中的性能提升遵循獨(dú)特的“S型增長曲線”:初期進(jìn)步緩慢,中期快速躍升,后期趨于穩(wěn)定。這一發(fā)現(xiàn)顛覆了傳統(tǒng)預(yù)訓(xùn)練的“冪律增長”認(rèn)知,為預(yù)測訓(xùn)練效果提供了數(shù)學(xué)基礎(chǔ)。
基于這一規(guī)律,團(tuán)隊(duì)開發(fā)出名為ScaleRL的訓(xùn)練框架。該框架包含四大核心組件:采用流水線處理的PipelineRL算法,顯著提升訓(xùn)練效率;穩(wěn)健性更強(qiáng)的CISPO損失函數(shù),避免訓(xùn)練崩潰;關(guān)鍵計(jì)算部分使用FP32高精度數(shù)值,確保穩(wěn)定性;以及智能篩選訓(xùn)練數(shù)據(jù)的策略,避免重復(fù)無效訓(xùn)練。這些組件通過系統(tǒng)性實(shí)驗(yàn)優(yōu)化組合,形成了一套“標(biāo)準(zhǔn)配方”。
驗(yàn)證實(shí)驗(yàn)顯示,ScaleRL展現(xiàn)出驚人預(yù)測能力。在對一個需10萬GPU小時(shí)訓(xùn)練的模型預(yù)測中,僅用前5萬小時(shí)數(shù)據(jù)就準(zhǔn)確預(yù)測了最終性能,實(shí)際結(jié)果與預(yù)測誤差不足1%。更關(guān)鍵的是,這種可預(yù)測性在不同規(guī)模、不同任務(wù)中均保持穩(wěn)定——無論是80億參數(shù)的標(biāo)準(zhǔn)模型,還是170億×16的混合專家模型;無論是數(shù)學(xué)推理還是代碼生成任務(wù),性能增長都嚴(yán)格遵循S型曲線。
研究團(tuán)隊(duì)進(jìn)一步揭示了資源分配的黃金法則:在固定計(jì)算預(yù)算下,擴(kuò)大模型規(guī)模比單純增加訓(xùn)練時(shí)間更高效。實(shí)驗(yàn)顯示,170億參數(shù)混合專家模型不僅最終性能優(yōu)于80億模型,訓(xùn)練效率也提升40%。同時(shí),增加生成文本長度(從1.4萬詞符擴(kuò)展至3.2萬詞符)雖初期進(jìn)步緩慢,但最終能突破性能瓶頸。這些發(fā)現(xiàn)為優(yōu)化訓(xùn)練策略提供了量化依據(jù)。
穩(wěn)定性是大規(guī)模訓(xùn)練的核心挑戰(zhàn)。團(tuán)隊(duì)定義了“截?cái)嗦省边@一關(guān)鍵指標(biāo)——當(dāng)AI生成文本超出預(yù)設(shè)長度時(shí)被強(qiáng)制截?cái)嗟念l率。實(shí)驗(yàn)表明,截?cái)嗦食^10%即預(yù)示訓(xùn)練不穩(wěn)定,而ScaleRL通過動態(tài)調(diào)整生成長度預(yù)算,將截?cái)嗦士刂圃?%以下,即使在2048大批次訓(xùn)練中仍保持穩(wěn)定。這種穩(wěn)定性源于大模型更強(qiáng)的指令遵循能力,170億參數(shù)模型的截?cái)嗦适冀K低于1%,90%訓(xùn)練步驟中甚至低于0.5%。
與現(xiàn)有方法對比中,ScaleRL優(yōu)勢顯著。在數(shù)學(xué)推理任務(wù)中,其最終性能(S型曲線上限參數(shù)A)達(dá)0.61,超越DeepSeek的GRPO(0.59)、Qwen2.5的DAPO(0.52)等主流方法。更關(guān)鍵的是,ScaleRL的訓(xùn)練效率(參數(shù)B)提升30%,意味著能更快達(dá)到性能上限。其CISPO損失函數(shù)對超參數(shù)敏感度比傳統(tǒng)DAPO降低60%,大幅降低調(diào)試成本。
這項(xiàng)研究的實(shí)用價(jià)值已引發(fā)工業(yè)界關(guān)注。meta已將ScaleRL應(yīng)用于代碼生成、多輪對話等復(fù)雜場景,訓(xùn)練成本降低50%的同時(shí),模型在數(shù)學(xué)競賽題解答、代碼修復(fù)等任務(wù)中的準(zhǔn)確率提升25%。學(xué)術(shù)界則將其視為強(qiáng)化學(xué)習(xí)研究的“標(biāo)準(zhǔn)工具包”,多所頂尖實(shí)驗(yàn)室已采用S型曲線作為算法評估基準(zhǔn)。
技術(shù)細(xì)節(jié)方面,研究團(tuán)隊(duì)開源了計(jì)算-性能曲線擬合代碼,支持研究者通過小規(guī)模實(shí)驗(yàn)(僅需數(shù)千GPU小時(shí))預(yù)測大規(guī)模訓(xùn)練效果。配套發(fā)布的監(jiān)控工具包可實(shí)時(shí)追蹤截?cái)嗦省⑻荻确稊?shù)等12項(xiàng)關(guān)鍵指標(biāo),提前預(yù)警訓(xùn)練風(fēng)險(xiǎn)。這些工具已形成完整生態(tài),降低技術(shù)門檻的同時(shí),推動強(qiáng)化學(xué)習(xí)訓(xùn)練向標(biāo)準(zhǔn)化、可復(fù)現(xiàn)方向發(fā)展。
從理論層面看,這項(xiàng)研究重構(gòu)了AI訓(xùn)練的認(rèn)知框架。S型增長曲線的發(fā)現(xiàn),揭示了AI認(rèn)知發(fā)展的本質(zhì)規(guī)律——與人類學(xué)習(xí)曲線高度吻合,為理解AI“思考”過程提供新視角。組合優(yōu)化策略的成功,則證明在復(fù)雜系統(tǒng)中,局部最優(yōu)的協(xié)同效應(yīng)可能超越單一組件的突破。這些發(fā)現(xiàn)不僅推動技術(shù)進(jìn)步,更為AI安全研究提供新工具:可預(yù)測的訓(xùn)練過程意味著更好的控制能力,為強(qiáng)大AI系統(tǒng)的安全發(fā)展奠定基礎(chǔ)。








