近日,英偉達與香港大學的研究人員聯合發布了名為 “Orchestrator” 的新模型,該模型擁有8億個參數,能夠協調不同的工具和大型語言模型(LLM)來解決復雜問題。在他們的實驗中,Orchestrator 在工具使用基準測試中以更低的成本實現了更高的準確性,并且能夠根據用戶的偏好智能選擇合適的工具。
Orchestrator 的訓練通過一種名為 ToolOrchestra 的新強化學習框架進行,旨在培養小型模型作為智能協調者。該方法的核心思想是,由一個輕量級的 “協調者” 管理多種專業模型和工具,能夠比單一的龐大 AI 系統更高效地解決問題。
當前,大多數大型語言模型工具使用的方式是將基本工具(如網絡搜索或計算器)與強大的模型結合在一起。研究人員認為,實際上人類在推理時會調用各種超越自身智能的資源,因此 LLMs 也應該能夠與多種工具進行交互。為此,他們提出了一種從單一模型系統轉變為由多個模型構成的復合系統,協調者分析復雜任務,分解成子任務,并按需調用適當的工具。
通過 ToolOrchestra 框架,研究團隊訓練了 Orchestrator 模型,并對其在三個挑戰性基準上的表現進行了評估。與幾種大型通用模型進行比較后,Orchestrator 在處理博士級問題的基準 “HLE” 上展現了顯著優勢,且計算成本遠低于其他方法。尤其在調用工具時,Orchestrator 能有效安排不同工具的使用,使得在保持高效的同時減少了高成本模型的調用。
研究者表示,經過強化學習訓練的 Orchestrator 展現出了很強的通用推理能力,能夠靈活適應新挑戰。對于企業應用而言,Orchestrator 能夠很好地適應未見過的模型和定價結構,這為依賴多種 AI 模型的企業提供了更加經濟和靈活的解決方案。
項目:https://research.nvidia.com/labs/lpr/ToolOrchestra/
劃重點:











