香港科技大學潘凌教授團隊聯合快手科技、StepFun等機構,在AI數學推理領域取得重要突破。他們提出的ROVER訓練方法顛覆了傳統強化學習框架,通過簡化策略優化過程,在保持高準確率的同時顯著提升了模型解題的多樣性。相關研究成果已發表于arXiv預印本平臺(論文編號:arXiv:2509.24981v1),為AI教育、定理證明等領域帶來新的技術路徑。
傳統強化學習方法依賴復雜的策略迭代機制,通過獎勵與懲罰的循環調整模型行為。例如PPO和GRPO算法需要模型在試錯中不斷優化解題策略,但這種模式存在明顯缺陷:訓練過程易陷入“多樣性坍塌”,即模型過度依賴單一解題路徑,忽視其他可行方案。研究團隊形象地比喻:“這就像學生長期使用固定解題模板,逐漸喪失靈活應變能力。”
研究團隊通過深入分析數學推理任務的結構特征,發現了突破傳統框架的關鍵。數學問題具有獨特的樹狀推理結構——每步推理產生確定的新狀態,不同路徑互不干擾,且答案非對即錯。基于這一特性,團隊提出顛覆性假設:在數學推理場景中,評估隨機策略的價值函數即可替代復雜的策略優化過程。實驗證明,通過概率采樣機制平衡最優路徑探索與其他可能性,既能保證解題準確性,又能維持策略多樣性。
ROVER方法的核心創新在于價值函數的表示方式。團隊摒棄了額外訓練價值網絡的傳統做法,直接利用語言模型參數計算相對價值,采用輸出概率對數作為價值指標。為增強訓練穩定性,研究引入組內獎勵中心化技術,通過問題平均得分調整個體樣本獎勵,有效減少噪聲干擾。這種輕量化設計使ROVER的超參數數量大幅減少,訓練效率較傳統方法提升30%以上。
在“倒計時”算術任務測試中,ROVER展現出驚人優勢。該任務要求通過加減乘除組合多個數字達到目標值,傳統方法平均僅能發現3種解法,而ROVER模型找到了17種不同路徑。在更具挑戰性的數學競賽題庫(涵蓋AIME、HMMT等賽事真題)中,基于Qwen3-8B模型的實驗顯示,ROVER訓練使首次嘗試正確率(pass@1)提升8.2個百分點,256次嘗試內正確率(pass@256)提升16.8個百分點。這些數據表明,模型不僅即時解題能力增強,探索未知路徑的能力也得到根本性提升。
泛化能力測試進一步驗證了ROVER的價值。在完全不相關的GPQA研究生水平科學問題數據集(涵蓋生物、物理、化學領域)上,ROVER訓練的模型同樣表現出性能提升。這證明該方法培養的不是特定領域的解題技巧,而是通用的結構化推理能力。不同規模模型(1.5B至8B參數)的對比實驗顯示,ROVER的改進效果具有模型無關性,為資源有限的研究團隊提供了實用方案。
從理論層面,研究團隊通過馬爾可夫決策過程分析,嚴格證明了隨機策略評估在確定性樹狀結構任務中的有效性。這種理論支撐不僅解釋了實驗現象,也為方法優化指明了方向。盡管論文坦承ROVER在非確定性轉移任務中的優勢可能減弱,但其在數學推理領域的突破已足夠引發行業關注。
這項研究帶來的啟示超越技術層面。在AI領域追求模型規模與復雜度的當下,研究團隊通過回歸問題本質實現了四兩撥千斤的效果。正如論文引用的達芬奇名言:“簡單是最高級的復雜”,ROVER方法證明,深入理解任務特性往往比堆砌復雜機制更有效。對于教育領域而言,能提供多樣化解題思路的AI助教,將比單一模式的教學工具更具實用價值。
針對技術細節的疑問,研究團隊解釋:ROVER通過概率采樣機制平衡最優路徑與其他可能性,溫度參數控制著探索與利用的平衡點。消融實驗表明,適當的溫度設置既能保持85%以上的解題準確率,又能維持策略多樣性。這種設計使得模型在測試階段通過多數投票策略時,能獲得更高的答案一致性。











