人工智能領(lǐng)域迎來一項(xiàng)突破性進(jìn)展——清華大學(xué)聯(lián)合北京大學(xué)、DeepLang AI及伊利諾伊大學(xué)香檳分校的研究團(tuán)隊(duì),開發(fā)出名為EAGLET的創(chuàng)新訓(xùn)練框架,使AI智能體在復(fù)雜長期任務(wù)中展現(xiàn)出接近人類的全局規(guī)劃能力。這項(xiàng)成果已發(fā)表于arXiv預(yù)印本平臺(tái),編號(hào)arXiv:2510.05608v1,為解決AI"無腦試錯(cuò)"的痛點(diǎn)提供了全新解決方案。
傳統(tǒng)AI在處理簡單任務(wù)時(shí)表現(xiàn)優(yōu)異,但面對(duì)需要多步驟協(xié)調(diào)的復(fù)雜場景時(shí),往往陷入盲目探索的困境。研究團(tuán)隊(duì)以"準(zhǔn)備晚餐"為例:若缺乏整體規(guī)劃,AI可能先燒水再買菜,最終因烤箱未預(yù)熱而手忙腳亂。這種"走一步看一步"的模式,導(dǎo)致效率低下且成功率堪憂。現(xiàn)有訓(xùn)練方法要么依賴昂貴的人工標(biāo)注數(shù)據(jù),要么通過海量試錯(cuò)積累經(jīng)驗(yàn),均無法實(shí)現(xiàn)真正的全局把控。
EAGLET框架的核心突破在于將規(guī)劃與執(zhí)行徹底解耦。研究團(tuán)隊(duì)首先構(gòu)建了"冷啟動(dòng)"階段,利用GPT-5等頂級(jí)大模型生成初始規(guī)劃樣本,再通過"同源共識(shí)過濾"機(jī)制篩選優(yōu)質(zhì)數(shù)據(jù)。該機(jī)制采用兩個(gè)能力不同但架構(gòu)相似的執(zhí)行器(基礎(chǔ)版與專家版Llama-3.1-8B模型),讓它們?cè)谟袩o規(guī)劃指導(dǎo)下分別執(zhí)行任務(wù)。只有當(dāng)兩個(gè)執(zhí)行器在使用規(guī)劃時(shí)均顯著提升表現(xiàn),該規(guī)劃才會(huì)被保留用于訓(xùn)練。這種雙重驗(yàn)證機(jī)制確保了訓(xùn)練數(shù)據(jù)的高質(zhì)量。
在強(qiáng)化學(xué)習(xí)階段,團(tuán)隊(duì)創(chuàng)新性地提出"執(zhí)行器能力增益獎(jiǎng)勵(lì)"(ECGR)機(jī)制。與傳統(tǒng)方法單純以任務(wù)完成率為指標(biāo)不同,ECGR通過比較不同能力執(zhí)行器在有無規(guī)劃指導(dǎo)下的性能差異,量化規(guī)劃的實(shí)際價(jià)值。例如,對(duì)于簡單任務(wù),規(guī)劃器會(huì)生成簡潔步驟;面對(duì)復(fù)雜場景,則提供詳細(xì)指導(dǎo)。這種"因材施教"的能力,使規(guī)劃器能靈活應(yīng)對(duì)各種難度級(jí)別的任務(wù)。
實(shí)驗(yàn)驗(yàn)證環(huán)節(jié),研究團(tuán)隊(duì)在三個(gè)典型場景中展開測試:ScienceWorld模擬科學(xué)實(shí)驗(yàn)室環(huán)境,要求AI完成測量物質(zhì)熔點(diǎn)等實(shí)驗(yàn);ALFWorld模擬家庭場景,需執(zhí)行"將加熱杯子放入櫥柜"等家務(wù);WebShop則構(gòu)建在線購物環(huán)境,考驗(yàn)AI根據(jù)需求搜索商品的能力。結(jié)果顯示,配備EAGLET的智能體在所有場景中均表現(xiàn)卓越:ScienceWorld中已見任務(wù)成功率提升20%,未見任務(wù)提升25%;ALFWorld平均提升超15%;WebShop提升約10%。更關(guān)鍵的是,這些提升伴隨著步驟數(shù)的顯著減少,證明規(guī)劃器有效避免了無效探索。
訓(xùn)練效率方面,EAGLET展現(xiàn)出驚人優(yōu)勢(shì)。傳統(tǒng)強(qiáng)化學(xué)習(xí)需數(shù)百次迭代才能收斂,而EAGLET僅需約50次即可達(dá)到優(yōu)異性能,訓(xùn)練成本降低8倍。這種效率提升源于高質(zhì)量初始數(shù)據(jù)和精準(zhǔn)獎(jiǎng)勵(lì)設(shè)計(jì),使訓(xùn)練過程更具針對(duì)性。訓(xùn)練完成的規(guī)劃器具有強(qiáng)通用性,可輕松適配不同執(zhí)行器,無需重復(fù)訓(xùn)練。
消融實(shí)驗(yàn)進(jìn)一步揭示了各組件的貢獻(xiàn):移除同源共識(shí)過濾導(dǎo)致性能下降3%,取消ECGR機(jī)制則下降5%,證明數(shù)據(jù)質(zhì)量與獎(jiǎng)勵(lì)設(shè)計(jì)同等重要。團(tuán)隊(duì)還發(fā)現(xiàn),將規(guī)劃信息直接嵌入任務(wù)指令的效果最佳,這為后續(xù)優(yōu)化提供了方向。對(duì)比實(shí)驗(yàn)顯示,EAGLET生成的規(guī)劃在正確性、可操作性和標(biāo)準(zhǔn)化程度上均優(yōu)于直接使用GPT-4.1的規(guī)劃,證明專門訓(xùn)練的優(yōu)越性。
具體案例中,"將熱杯子放入櫥柜"任務(wù)暴露了傳統(tǒng)方法的缺陷:無規(guī)劃智能體反復(fù)聲明任務(wù)完成卻未實(shí)際執(zhí)行;傳統(tǒng)MPO方法因錯(cuò)誤假設(shè)陷入循環(huán);而EAGLET智能體則系統(tǒng)搜索杯子,發(fā)現(xiàn)錯(cuò)誤后及時(shí)糾正,最終僅用16步高效完成任務(wù)。這種目標(biāo)導(dǎo)向的決策模式,標(biāo)志著AI從反應(yīng)式向預(yù)見式的轉(zhuǎn)變。
盡管成果顯著,研究團(tuán)隊(duì)也指出當(dāng)前局限:實(shí)驗(yàn)主要基于文本交互環(huán)境,多模態(tài)場景適用性需進(jìn)一步驗(yàn)證;同源共識(shí)過濾依賴多個(gè)執(zhí)行器,某些場景可能受限;跨領(lǐng)域泛化能力仍有提升空間。針對(duì)這些問題,團(tuán)隊(duì)計(jì)劃探索多模態(tài)規(guī)劃、輕量化評(píng)估機(jī)制及更強(qiáng)泛化能力,推動(dòng)技術(shù)向更廣泛應(yīng)用場景拓展。
這項(xiàng)研究為AI發(fā)展開辟了新路徑。傳統(tǒng)方法側(cè)重模仿人類行為,而EAGLET讓機(jī)器學(xué)會(huì)像人類一樣思考規(guī)劃。這種轉(zhuǎn)變使AI從被動(dòng)工具升級(jí)為主動(dòng)助手,能夠理解深層需求、提出解決方案并協(xié)助實(shí)現(xiàn)復(fù)雜目標(biāo)。在工業(yè)機(jī)器人裝配、服務(wù)機(jī)器人護(hù)理、自動(dòng)駕駛導(dǎo)航等領(lǐng)域,這種全局規(guī)劃能力將成為核心競爭優(yōu)勢(shì)。對(duì)技術(shù)細(xì)節(jié)感興趣的讀者,可通過論文編號(hào)arXiv:2510.05608v1查閱完整內(nèi)容。











