在人工智能快速發展的今天,如何讓AI模型變得更加智能可靠成為關鍵課題。中科院自動化所與字節跳動等機構聯合開展的研究給出了創新解決方案——他們開發的BaseReward系統,為多模態AI模型構建了高效的評估機制。這項成果已通過arXiv平臺公開,編號為2509.16127,標志著AI訓練評估領域的重要突破。
傳統AI訓練面臨的核心困境在于缺乏統一評判標準。研究團隊發現,現有多模態獎勵模型猶如各自為政的裁判,有的專注文本分析,有的負責圖像識別,還有的僅做安全校驗,但始終沒有能統籌全局的"全能評委"。這種碎片化評估方式,嚴重制約了AI模型處理復雜任務的能力。
研究團隊通過大量實驗發現,引入純文本數據能顯著提升多模態模型的判斷精度。這個意外發現猶如烹飪界的創新:讓美食評委同時研習菜譜文字,反而能提升其菜品評判水平。具體測試顯示,Ultra-Hard等純文本數據集在多模態任務中的表現,甚至超越了部分專用多模態數據集,特別是在安全評估和數學推理方面效果顯著。
在模型架構設計上,研究團隊進行了系統性探索。他們測試了三種主要訓練方法:直接評分法如同快速煎蛋,雖簡單但缺乏解釋性;評論分析法先分析后打分,過程透明但依賴分析質量;生成式評判則直接輸出比較結果,雖直觀但計算成本高。最終實驗表明,在綜合考慮效率與效果后,改良的直接評分法成為最優選擇。
模型內部結構的優化同樣關鍵。傳統線性評分層被多層感知機(MLP)取代,實驗顯示兩層結構配合SiLU激活函數效果最佳。這種設計理念遵循"簡約不簡單"原則,就像經典菜譜只需關鍵步驟即可成就美味,過度復雜的結構反而會降低性能。
訓練策略方面,研究團隊挑戰了常規做法。他們測試的零系數正則化和長度歸一化等"調味技巧",在實際應用中并未帶來預期提升,有時甚至產生負面影響。這個發現促使團隊采用極簡訓練方案,證明在機器學習領域,"少即是多"的哲學同樣適用。
數據選擇與配比研究揭示了新的規律。在收集的十余個數據集中,MMIF和SHP數據集因效果不佳被比喻為"變質食材"。更引人注目的是,純文本數據對多模態任務的促進作用呈現"單向性":文本訓練能提升多模態判斷,但多模態數據對純文本任務幫助有限。這促使研究團隊提出模塊化策略,根據任務類型動態選擇評估工具。
基礎模型的選擇直接影響評估效果。測試顯示,Qwen-VL系列在多模態任務中表現突出,MM-RLHF-Reward評測準確率達93.5%;而Intern-VL系列在純文本判斷上更具優勢,RewardBench評測得分84.0。值得注意的是,單純擴大模型規模(從7B到72B參數)并未帶來顯著提升,這為資源有限場景下的模型選擇提供了重要參考。
集成策略的運用帶來了意外收獲。通過組合不同專長的模型組成"評審團",系統性能得到顯著提升。在主要基準測試中,簡單平均集成法使評分從81.0提升至82.6分。特別當加入純文本專項模型后,文本評估性能從80.7分躍升至82.7分,證明模型多樣性對系統整體性能的關鍵作用。
最終推出的BaseReward模型采用Qwen2.5-VL-7B架構,配備優化后的兩層獎勵頭和SiLU激活函數,在280萬個偏好數據對上完成訓練。技術參數顯示,3e-6學習率配合128批次大小,在64張H100 GPU上實現高效訓練。這種設計使BaseReward在保持快速推理的同時,評估準確率大幅提升。
實際測試中,BaseReward在MM-RLHF-Reward Bench評測中取得91.76%的準確率,較此前最佳成績提升11.9%;在VL-Reward Bench評測中整體準確率達82.16%,提升14.2%。與需要先生成分析文本再評分的競爭對手相比,BaseReward的直接評分機制使其效率優勢明顯。
在真實強化學習場景中,BaseReward指導Qwen-2.5-VL 3B模型訓練時,采用混合教學法的效果最佳。數學推理任務MathVista準確率從61.8%提升至64.3%,對話質量評估LLaVA-Wild基準勝率從48.4%提升至54.0%。這些改進在AI領域已屬顯著突破,證明該系統能有效提升模型的實際應用能力。
研究團隊同時指出當前工作的局限性。由于計算資源限制,未對72B參數以上模型進行測試,這為后續研究留下空間。如何讓多模態模型在純文本任務上達到專業文本模型水平,仍是待解難題。完整技術細節可參考arXiv:2509.16127論文,其中包含更多實驗數據與深入討論。











