英偉達(dá)與香港大學(xué)科研團(tuán)隊(duì)近日聯(lián)合推出了一款名為“Orchestrator”的智能模型,該模型以8億參數(shù)的輕量化設(shè)計(jì),實(shí)現(xiàn)了對(duì)多種工具與大型語(yǔ)言模型(LLM)的動(dòng)態(tài)協(xié)調(diào)。實(shí)驗(yàn)數(shù)據(jù)顯示,這一模型在工具調(diào)用基準(zhǔn)測(cè)試中不僅準(zhǔn)確率領(lǐng)先,還能根據(jù)用戶需求自動(dòng)匹配最優(yōu)工具,同時(shí)將計(jì)算成本控制在更低水平。
研究團(tuán)隊(duì)開(kāi)發(fā)了名為ToolOrchestra的強(qiáng)化學(xué)習(xí)框架,其核心創(chuàng)新在于通過(guò)訓(xùn)練小型模型擔(dān)任“智能協(xié)調(diào)者”角色。區(qū)別于傳統(tǒng)單一大型AI系統(tǒng),該框架讓輕量級(jí)模型承擔(dān)任務(wù)分解與資源調(diào)度職責(zé),將復(fù)雜問(wèn)題拆解為子任務(wù)后,精準(zhǔn)調(diào)用不同專業(yè)模型或工具完成具體操作。這種分工模式被證明在處理多步驟任務(wù)時(shí)效率顯著提升。
在針對(duì)博士級(jí)推理問(wèn)題的“HLE”基準(zhǔn)測(cè)試中,Orchestrator展現(xiàn)出獨(dú)特優(yōu)勢(shì)。對(duì)比通用型大模型,該模型在保持高準(zhǔn)確率的同時(shí),計(jì)算資源消耗降低超過(guò)40%。特別在工具調(diào)用環(huán)節(jié),其智能調(diào)度策略減少了30%以上高成本模型的調(diào)用頻率,通過(guò)動(dòng)態(tài)組合基礎(chǔ)工具與專業(yè)模型,實(shí)現(xiàn)了資源利用的最優(yōu)化配置。
科研人員指出,現(xiàn)有LLM工具集成方案多停留在簡(jiǎn)單疊加階段,而人類解決問(wèn)題時(shí)往往會(huì)調(diào)用超越自身認(rèn)知范圍的外部資源。基于此洞察,研究團(tuán)隊(duì)構(gòu)建了復(fù)合型AI系統(tǒng)架構(gòu):協(xié)調(diào)者模型首先解析任務(wù)需求,隨后生成包含工具選擇、調(diào)用順序的執(zhí)行方案,最終通過(guò)多模型協(xié)作完成復(fù)雜推理。這種設(shè)計(jì)使系統(tǒng)具備更強(qiáng)的環(huán)境適應(yīng)能力。
企業(yè)應(yīng)用測(cè)試表明,Orchestrator對(duì)未接觸過(guò)的模型架構(gòu)和定價(jià)體系表現(xiàn)出良好兼容性。某金融科技公司的實(shí)測(cè)數(shù)據(jù)顯示,該模型在風(fēng)險(xiǎn)評(píng)估場(chǎng)景中,通過(guò)智能組合不同數(shù)據(jù)源與計(jì)算工具,將響應(yīng)時(shí)間縮短至原系統(tǒng)的三分之一,同時(shí)將模型調(diào)用成本降低55%。這種靈活性為需要整合多元AI服務(wù)的企業(yè)提供了新的技術(shù)路徑。
目前研究團(tuán)隊(duì)已開(kāi)放項(xiàng)目技術(shù)文檔與訓(xùn)練框架,詳細(xì)說(shuō)明通過(guò)強(qiáng)化學(xué)習(xí)優(yōu)化模型協(xié)調(diào)能力的具體方法。文檔顯示,該框架通過(guò)構(gòu)建包含任務(wù)分解、工具評(píng)估、結(jié)果反饋的閉環(huán)訓(xùn)練系統(tǒng),使協(xié)調(diào)者模型逐步掌握最優(yōu)調(diào)度策略。這種訓(xùn)練方式不依賴特定領(lǐng)域知識(shí),為模型向更多專業(yè)場(chǎng)景遷移奠定了基礎(chǔ)。











