在人工智能技術日新月異的當下,如何提升大型語言模型的訓練效果成為學界與產業界共同關注的焦點。快手科技Klear團隊聯合獨立研究者李云濤完成的一項突破性研究,為這一難題提供了創新解決方案。該成果以論文形式發表于arXiv預印本平臺(編號:arXiv:2509.20712v3),通過重新設計強化學習算法,在模型探索能力與知識利用效率之間實現了更優平衡。
研究團隊將傳統訓練方法比喻為"填鴨式教育":模型被嚴格限制在預設的解題框架內,任何超出范圍的思考都會被直接否定。這種模式雖能保證訓練穩定性,卻導致模型逐漸喪失創新能力。以數學解題為例,現有主流算法(如PPO)如同只接受標準答案的教師,完全忽視學生提出的非常規思路,即便這些思路可能蘊含重要突破點。
核心問題在于傳統算法的"策略熵"控制機制存在缺陷。研究指出,模型輸出的詞元可根據概率與優勢值分為四類:高概率正優勢、低概率負優勢、高概率負優勢和低概率正優勢。前兩類雖能加速模型收斂,但容易導致過早陷入局部最優解;后兩類雖看似"非主流",卻是維持模型探索能力的關鍵。傳統PPO算法通過簡單裁剪機制丟棄后兩類信息,直接引發了"熵坍塌"(探索能力喪失)和"熵爆炸"(過度探索導致知識利用失效)兩大問題。
針對這些弊端,研究團隊提出CE-GPPO(通過梯度保持裁剪策略優化協調熵)算法。該方案的創新之處在于引入"停梯度"技術,為模型創新思考設置安全緩沖區。通過兩個可調節參數β1和β2,算法能夠精準控制不同類型詞元的影響權重:對具有潛在價值的低概率創新答案給予適度關注,同時抑制可能導致模型偏離的噪聲信息。
實驗數據顯示,CE-GPPO在數學推理基準測試中表現卓越。在AIME24、AIME25、HMMT25等權威測試集上,新算法均顯著超越現有強基線方法。規模效應測試顯示,其優勢隨模型參數增加而擴大:1.5B參數模型提升2.5個百分點,7B參數模型提升達3個百分點。特別在復雜任務中,CE-GPPO展現出更強的適應能力。
參數調節實驗揭示了算法的靈活性。當β1=0.5或0.75且β2=1時,模型能在探索與利用間取得最佳平衡。增大β1或減小β2可加速收斂,反之則增強探索能力。這種可調節性使算法能夠適配不同應用場景的需求。
穩定性監測表明,CE-GPPO在整個訓練過程中保持平穩表現。KL散度和梯度范數曲線顯示,新算法在引入額外學習信號的同時,未出現傳統方法常見的劇烈波動。與其他先進算法(如CISPO、GSPO)的對比測試中,CE-GPPO在五個測試集的四個中取得最優成績,且避免了競爭方法常見的模型崩潰問題。
理論層面,研究團隊構建了策略熵動態變化的數學模型,首次證明了被傳統方法忽視的"越界"詞元對維持探索能力的重要性。推導出的公式清晰展示了不同類型詞元如何影響模型的決策平衡,為算法設計提供了堅實的理論支撐。
實際應用中,CE-GPPO在需要深度思考的任務領域(如數學推理、科學計算、代碼生成)展現出巨大潛力。通過平衡創新探索與知識利用,該算法有望推動更智能、更可靠的AI系統開發。不過研究也指出,不同模型可能需要調整最優參數設置,β1=0.5、β2=1的通用配置仍需根據具體場景微調。











