當強化學習(RL)在小規模語言模型訓練中掀起技術競賽時,一種反其道而行之的極簡方案悄然出現。清華團隊近日公布的JustRL框架,通過完全摒棄課程學習、動態調參等復雜技術,僅用單階段訓練和固定超參數,便在1.5B參數模型上實現了數學推理能力的頂尖水平。這項研究不僅刷新了9項數學基準測試的記錄,更以節省50%算力的優勢,引發對強化學習技術復雜度的重新思考。
在DeepSeek-R1開源引發的技術浪潮中,如何用RL訓練1.5B級推理模型成為焦點。過去半年間,業界涌現出多階段訓練、動態采樣、KL重置等數十種優化技術,訓練流程日益復雜。某代表性工作通過9個訓練階段和512次rollout探索,雖取得53.08%的平均準確率,卻消耗了雙倍于JustRL的計算資源。這種技術堆砌現象催生關鍵疑問:當不同研究組合使用不同技術子集時,如何判斷哪些改進真正有效?
JustRL的突破始于一個樸素假設:如果充分擴展基礎訓練規模,簡單方法能達到何種高度?研究團隊采用標準GRPO算法,構建了"三無"訓練體系:無階段劃分、無超參調整、無數據增強。實驗選用兩個基座模型進行驗證:起點較弱的DeepSeek-1.5B(AIME 2024準確率29%)和較強的Nemotron-1.5B(準確率61%)。在完全相同的超參數設置下,兩個模型在9項數學基準上均達到當前最優水平,其中Nemotron基座模型以64.32%的準確率超越采用課程學習的QuestA方案。
訓練效率的對比更具沖擊力。從弱基座起步的JustRL-DeepSeek模型,在32張A800 GPU上訓練15天后,以1.4E+11 token的預算取得54.87%的平均準確率,較ProRL-V2的9階段訓練方案節省一半算力。更引人注目的是訓練過程的穩定性:在4000步訓練中,策略熵始終維持在1.2-1.4的健康區間,平均獎勵呈單調上升趨勢,響應長度自然壓縮至4000-5000 tokens,全程未出現熵崩潰或探索失效等典型問題。
兩個意外實驗進一步顛覆傳統認知。當研究團隊嘗試加入顯式長度懲罰時,模型準確率從55%驟降至50%,原因在于懲罰項導致熵值過早壓縮,阻礙了有效解題策略的探索。而改用寬松驗證器的實驗,則使性能下滑至45%,分析顯示細粒度學習信號的缺失和格式約束的放松,反而削弱了模型的推理魯棒性。這些"反向優化"案例表明,某些看似合理的改進在穩定基線上可能適得其反。
該成果的技術博客和開源模型已在網絡公開,其核心啟示在于:在充分擴展訓練規模的前提下,簡單方法可能比預期更強大。研究團隊特別強調,這并非否定復雜技術的價值,而是主張先驗證基礎方案的極限。當行業習慣于做技術加法時,JustRL的實踐證明,有時減去冗余設計,反而能發現更本質的解決方案。這種"減法哲學"或許能為RL訓練提供新的評估維度——在追求創新之前,先確認簡單方法是否已足夠。











