在人工智能領域,大語言模型(LLM)驅動的多智能體系統正展現出強大的潛力。然而,現有的訓練框架主要聚焦于單智能體場景,多智能體間的協作優化——“群體強化”仍是一個亟待突破的領域。針對這一挑戰,來自UCSD與英特爾的研究團隊提出了一種全新的通用多智能體強化學習框架——PettingLLMs,為多智能體協同訓練提供了創新解決方案。
多智能體系統在醫療、編程、科研、具身智能等領域的應用中,已展現出超越單智能體的顯著優勢。然而,當前主流的強化學習算法(如GRPO)均基于單智能體假設,其核心機制是通過同一輸入(prompt)生成多組候選回答,并在組內進行相對優勢評估。這一機制的有效性依賴于“共同prompt”的前提——即所有候選回答必須基于完全相同的上下文生成。但在多智能體多輪交互場景中,不同智能體在不同輪次接收到的prompt可能包含其他智能體的歷史輸出(如編程任務中,智能體生成的代碼可能被其他智能體用于單元測試),導致“共同prompt”假設被破壞,進而影響優勢計算的公平性與有效性。
為解決這一問題,研究團隊提出了一種基于貪心搜索的樹狀采樣方法。該方法通過每輪為每個智能體生成K個分支,并選擇當前獎勵最高的智能體進行下一輪分支,從而平衡探索與利用的矛盾。同時,每個智能體的獎勵函數被設計為同時考慮自身角色專屬獎勵與全局任務獎勵,確保智能體在提升協作能力的同時保持角色特異性。
針對多智能體訓練中的策略選擇問題(即何時采用“專屬模型”模式,何時采用“共享模型”模式),研究團隊構建了異步分發訓練系統。該系統通過路由模塊收集多智能體交互產生的軌跡數據,并根據訓練模式需求進行差異化處理:在專屬模型模式下,系統將智能體i的數據僅發送至模型資源池i的更新單元,實現獨立模型進化;在共享模型模式下,系統將所有智能體的軌跡數據合并后發送至同一資源池,實現統一模型優化。
基于上述方法,研究團隊開源了PettingLLMs框架,支持不同模型與智能體間的任意映射,并允許每個智能體適配不同的LoRA(低秩適應)參數。開發者僅需定義任務特定的智能體交互邏輯與獎勵函數,即可快速構建多智能體訓練環境。目前,框架已內置數學、編程、游戲等主流任務環境。
實驗結果表明,該框架在復雜任務中表現突出。在推箱子(Sokoban)任務中,通過AT-GRPO算法訓練的兩個智能體將任務完成率從14%提升至96%;在路徑規劃任務中,完成率從47%提升至99.5%。代碼生成任務中,LiveCodeBench、APPS、CodeContests的準確率分別提升6.1%、4.2%和7.0%;數學推理任務中,AIME 24與AIME 25的準確率分別提升9.0%和17.9%。
消融實驗進一步驗證了框架設計的合理性。僅在單智能體環境中訓練規劃或工具子角色時,指標雖從5.0%提升至11.0%/14.5%,但聯合作業時準確率僅達16.0%;而互換已訓練角色的策略會導致準確率驟降至6.0%,證明智能體能力具有互補性與不可替代性。訓練過程中智能體學習回報同步上升,任務平均回合數持續下降,表明協作效率隨訓練進程顯著提升。









