人工智能領域迎來重要技術突破,摩爾線程提出的URPO統(tǒng)一獎勵與策略優(yōu)化框架引發(fā)行業(yè)關注。這項創(chuàng)新成果被國際頂級學術會議AAAI 2026收錄,為簡化大語言模型訓練流程提供了全新解決方案。研究團隊通過將指令遵循與獎勵評判兩大核心功能整合到單一模型中,實現(xiàn)了訓練效率與模型性能的雙重提升。
該框架在《URPO:A Unified Reward & Policy Optimization framework for Large Language Models》論文中詳細闡述了技術實現(xiàn)路徑。研究團隊突破傳統(tǒng)訓練范式,創(chuàng)造性地構建了三大技術模塊:首先通過數(shù)據(jù)格式統(tǒng)一技術,將偏好數(shù)據(jù)、推理數(shù)據(jù)和指令數(shù)據(jù)轉化為標準化訓練信號;其次開發(fā)自我獎勵循環(huán)機制,使模型能夠自主評估生成內(nèi)容并形成改進閉環(huán);最后建立協(xié)同進化體系,讓生成能力與評判能力在混合數(shù)據(jù)訓練中相互促進。
實驗數(shù)據(jù)充分驗證了技術有效性。基于Qwen2.5-7B模型的測試顯示,采用URPO框架后,模型在Alpacaeval指令跟隨榜單的得分從42.24提升至44.84,綜合推理能力平均分增長3分。更值得關注的是,模型內(nèi)生的評判能力在RewardBench評測中取得85.15分,超越專用獎勵模型的83.55分,展現(xiàn)出強大的泛化能力。這種訓練副產(chǎn)品直接轉化為實用功能的技術路徑,為模型開發(fā)提供了新思路。
技術落地方面已取得實質(zhì)性進展。摩爾線程宣布該框架已在其自研計算卡上實現(xiàn)穩(wěn)定運行,并完成與VERL等主流強化學習框架的深度適配。這種軟硬協(xié)同的優(yōu)化策略,不僅提升了訓練效率,更為后續(xù)大規(guī)模模型開發(fā)奠定了基礎。研究團隊透露,相關技術正在向多模態(tài)領域延伸,有望在更復雜的AI應用場景中發(fā)揮作用。
行業(yè)專家指出,URPO框架的創(chuàng)新性在于打破了傳統(tǒng)訓練中生成與評判分離的架構限制。通過將裁判功能內(nèi)化于模型自身,既減少了訓練環(huán)節(jié)的復雜度,又提升了獎勵信號的精準度。這種技術路徑特別適用于需要快速迭代的開發(fā)場景,可能引發(fā)大模型訓練范式的變革。隨著技術文檔的公開,預計將有更多研究機構和企業(yè)開展相關實驗驗證。











