在大語言模型(LLM)驅動的智能體研究領域,多智能體協作的強化學習機制長期面臨技術瓶頸。現有訓練框架普遍聚焦單智能體優化,而醫療診斷、科研探索、復雜編程等場景中,多智能體協同工作流已被證明能顯著提升任務表現。針對這一矛盾,來自加州大學圣地亞哥分校與英特爾的聯合研究團隊,提出了首個通用化多智能體強化學習框架PettingLLMs,實現了跨任務、跨模型規模的群體智能進化。
傳統強化學習算法GRPO(Group Relative Policy Optimization)通過同一上下文生成候選回答并計算相對優勢,但其核心假設要求比較組內所有回答必須基于完全相同的輸入提示(prompt)。在多智能體多輪交互場景中,這一條件難以滿足——不同智能體在不同輪次接收的提示往往包含歷史對話、其他智能體生成的中間結果等動態信息。例如編程任務中,第二輪的提示可能同時包含原始需求、智能體A生成的代碼框架以及智能體B編寫的單元測試用例。若強行將跨輪次、跨智能體的回答納入同一比較組,將直接破壞GRPO的公平性假設,導致優勢計算基準混亂。
研究團隊提出的解決方案包含兩大核心創新。首先是基于貪心搜索的樹狀采樣機制:每個輪次中,每個智能體作為節點進行K次分支探索,系統動態選擇當前獎勵值最高的智能體路徑進行下一輪擴展。這種設計在保證組內回答批次量的同時,通過動態路徑選擇維持了優勢計算的公平性。其次是角色-全局雙獎勵函數:每個智能體的獎勵既包含角色專屬目標(如代碼生成質量),也納入全局任務指標(如系統整體通過率),確保個體能力進化與群體協作的平衡。
為支持不同場景下的訓練需求,研究團隊構建了異步分發訓練系統。該系統通過路由模塊智能分配數據流:在專屬模型模式下,不同智能體的交互軌跡被定向發送至獨立資源池進行模型更新;共享模型模式下,所有軌跡數據則匯總至同一資源池進行聯合優化。這種靈活架構使得研究人員可根據任務特性,在角色專業化與模型通用化之間自由切換。
開源框架PettingLLMs大幅降低了多智能體強化學習的開發門檻。開發者僅需定義任務特定的智能體交互邏輯與獎勵函數,即可利用框架內置的采樣算法、資源調度系統和環境適配接口快速構建訓練環境。框架支持不同模型與智能體的自由映射,并兼容LoRA等輕量化適配技術。目前,框架已預置數學推理、代碼生成、策略游戲等主流任務環境,并提供完整的環境開發教程。
實證研究覆蓋Qwen3-1.7B與Qwen3-8B兩個模型規模,涉及規劃(推箱子、路徑規劃)、代碼(LiveCodeBench、APPS競賽集)、數學(AIME競賽、奧林匹克基準)三大類任務。實驗數據顯示,采用AT-GRPO算法訓練后,推箱子任務成功率從14%躍升至96%,路徑規劃任務準確率從47%提升至99.5%;代碼生成任務中,LiveCodeBench、APPS、CodeContests的得分分別提高6.1%、4.2%和7.0%;數學推理任務AIME 2024與2025的得分提升達9.0%和17.9%。
消融實驗進一步驗證了框架設計的合理性。單智能體訓練模式下,即使將規劃、工具等子角色分開訓練,其指標提升幅度顯著低于多智能體協作模式;角色策略互換實驗顯示,已訓練成熟的智能體組合若強行調換角色,任務準確率將從96%暴跌至6%,證明不同智能體習得的是互補且不可替代的能力。訓練過程分析表明,隨著迭代進行,智能體間的協作效率持續提升,完成任務所需的平均交互輪次明顯下降。
該研究成果已通過開源代碼與論文形式公開。項目地址:https://github.com/pettingllms-ai/PettingLLMs;論文鏈接:https://huggingface.co/papers/2510.11062。研究者表示,這一框架為復雜任務中的群體智能進化提供了通用解決方案,其模塊化設計可支持未來更多類型智能體的接入與協同。











