国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级

ITBear旗下自媒體矩陣:

全面戰勝ReAct!斯坦福全新智能體推理框架,性能提升112.5%

   時間:2025-12-05 09:19:06 來源:互聯網編輯:茹茹 IP:北京 發表評論無障礙通道

斯坦福和MIT的研究團隊推出了一種新的AI智能體推理框架ReCAP,在長上下文任務中全面超越了現有的主流框架ReAct,性能提升顯著。ReCAP通過獨特的遞歸樹結構和三大機制,解決了大語言模型在復雜任務中常見的目標漂移、上下文斷層和成本爆炸等問題。在多項基準測試中,ReCAP均取得了大幅領先的成績,展現出強大的通用性和穩定性。盡管計算成本略有增加,但其在關鍵任務中的表現使其成為極具潛力的新一代通用推理架構。

自2022年ReAct框架提出以來,AI智能體推理領域便進入了百家爭鳴的時代,各種復雜架構如雨后春筍般涌現。

然而,這些架構大多曇花一現,因其復雜的結構導致在更換評測基準時需要大幅修改示例,表現遠不如ReAct穩定泛用,這也使得ReAct在過去三年中,成為了該領域事實上的主流與標桿。

但是,我們真的不能再做得更好了嗎?

面對大模型在長上下文任務中走幾步就忘的短期記憶頑疾,業界是否只能止步于此?

來自斯坦福大學與MIT的研究團隊給出了肯定答案,正式發布的AI Agent推理新框架——ReCAP(遞歸上下文感知推理與規劃),從真正意義上統一了序列推理和層級推理,在多種任務中全面戰勝了ReAct,且繼承了ReAct示例簡單、高通用性,和即插即用的優勢。

在嚴格遵循 pass@1(一次通過)的評測原則下,ReCAP在長序列具身任務Robotouille上相比ReAct基線取得了84.2%(同步)和112.5%(異步)的巨大性能提升。

長上下文任務的三大「死穴」

團隊指出,當今大語言模型在執行復雜任務時普遍有三種問題:

目標漂移(Goal Drift):執行幾步后就逐漸忽略了原本的目標,使得執行結果與期望不符。

上下文斷層(Context Loss):高層的規劃信息在長序列執行中丟失,導致高層思考與低層執行不協調。

成本爆炸(Prompt Explosion):每次遞歸都重新鋪開上下文示例和提示詞,推理成本指數增長。

簡單說,LLM就像一個短期記憶型天才,而主流推理框架各有局限:

序列推理(例如Chain of Thoughts,ReAct)雖然上下文連貫,但常常因為任務太長導致目標漂移;

層級推理(例如ADaPT,THREAD)將任務分解為子任務來明確目標,但給子任務單獨分配上下文示例和提示詞,導致上下文斷層和成本爆炸。

ReCAP

讓序列推理和層級推理有機結合

ReCAP的核心在于將一個有記憶、有反饋的遞歸樹結構作為模型的工作記憶區,其三大機制環環相扣:

計劃前瞻分解(Recursive Task Decomposition with Plan-Ahead):模型首先生成一個完整的子任務列表,但只執行第一個子任務,完成后再動態優化后續計劃。

結構化父任務再注入(Consistent Multi-level Context and Structured Injection):整個執行流程只有一個上下文,由所有任務共享。每次子任務遞歸返回時,父任務會將自身的思考和計劃再次注入上下文,使父任務在重新計劃時可以參考上次的思維和執行結果,規劃出能真正達成任務目標的底層操作。

滑動窗口記憶(Sliding Window and Scalable Memory Efficiency):通過滑動窗口機制,在統一上下文中只保留最新關鍵歷史,實現了內存占用可控的深度遞歸,從根本上杜絕了成本爆炸。

實驗結果

長上下文任務性能大幅躍升

團隊在多個典型長上下文推理基準上驗證了ReCAP的效果。結果令人矚目:

在Robotouille(同步)上取得70%成功率,較ReAct(38%)提升84.2%

在Robotouille(異步)上取得53%成功率,較ReAct(24%)提升112.5%

在ALFWorld上取得91%成功率,穩定優于ReAct(84%)

在SWE-bench Verified取得44.8%的成功率,優于ReAct基線(39.58%)

團隊在實驗中始終秉持pass@1的實驗原則,即不使用樣本層面的重試、多數投票或者束搜索。這意味著ReCAP能在真實多步環境中,更好地保持目標一致性與執行連貫性——不僅「想得對」,還能「做得穩」。

ReCAP是除ReAct之外,又一個能夠在具身推理、以及代碼編輯這兩種截然不同的任務上都取得穩健表現的通用推理架構。

論文中排除了THREAD、Reflexion等其他基線,因其在實驗設置中難以穩定復現或與 pass@1 協議不兼容,這進一步凸顯了ReCAP作為新一代通用推理基線的潛力。

優勢與成本的權衡

任何強大的能力都伴隨著成本。團隊對此進行了透明分析:ReCAP的總計算成本約為ReAct的三倍。這主要來自于其核心的計劃前瞻分解機制所額外需要的LLM調用。

然而,考慮到其在關鍵任務上帶來的性能巨幅提升與目標一致性,這種成本的增加在對準確性要求高的實際應用中是可以接受的。這為開發者提供了一個清晰的性價比權衡選項。

遞歸,是通往通用智能的鑰匙?

從人類思維到圖靈機,遞歸始終是智能的底層邏輯。ReCAP的提出,可視為AI邁向通用推理系統的關鍵一步。

其潛力遠不止于論文所驗證的任務范疇。任何依賴復雜決策回路與長期上下文記憶的大型任務,都是ReCAP的理想應用場景。

例如在深度研究中自主遍歷文獻、整合多源信息并生成洞察報告;或在復雜軟件工程中管理龐大代碼庫與依賴關系,推進需多步驗證的系統項目。

長遠來看,ReCAP的遞歸規劃能力可以與空間智能相結合,解決更為復雜的現實世界問題。李飛飛教授近日指出,空間智能——即理解、推理并與三維世界交互的能力,是AI的下一個前沿。

ReCAP可以為具身智能機器人規劃復雜的長期任務序列,而空間智能模型則負責處理實時感知與動作控制,二者結合實現機器人在動態環境中的自主規劃與可靠執行。

隨著代碼的開源,一個更擅長長期規劃、穩健執行的AI時代或許即將到來。

作者介紹

共同一作 Zhenyu Zhang, Tianyi Chen, Weiran Xu 均為斯坦福大學工程學院計算機系碩士研究生

Alex Pentland教授,麻省理工學院媒體實驗室 創始人之一,美國國家工程院院士,Toshiba Professor at MIT,斯坦福大學 HAI Fellow。

Jiaxin Pei博士,斯坦福大學博士后研究員,研究興趣集中在大語言模型、人機交互、Agentic AI,即將前往得克薩斯大學奧斯汀分校任教。

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级
av中文字幕不卡| 色综合天天综合网天天看片| 美国十次了思思久久精品导航| 久久精品日产第一区二区三区高清版 | 久久99精品国产91久久来源| 日本v片在线高清不卡在线观看| 亚洲一二三区视频在线观看| 亚洲国产一区在线观看| 亚洲一二三四区不卡| 五月综合激情婷婷六月色窝| 日本亚洲三级在线| 国产曰批免费观看久久久| 精品一区二区日韩| 国产成人精品一区二| 99在线精品观看| 欧美日韩你懂得| 亚洲精品在线一区二区| 久久久无码精品亚洲日韩按摩| 26uuu亚洲综合色欧美 | 国产精品一区免费在线观看| 成人一区二区三区在线观看| 色综合久久中文字幕综合网| 欧美日韩国产大片| 中文字幕乱码一区二区免费| 亚洲亚洲精品在线观看| 麻豆国产精品一区二区三区| 99久久精品久久久久久清纯| 69久久99精品久久久久婷婷| 国产亚洲婷婷免费| 亚洲成人7777| 99久久免费视频.com| 日韩欧美一级精品久久| 亚洲品质自拍视频网站| 蜜臀国产一区二区三区在线播放| 国产高清精品久久久久| 精品视频全国免费看| 国产欧美日韩精品a在线观看| 亚洲国产欧美在线| 97精品视频在线观看自产线路二| 精品国产一区二区三区忘忧草| 一级中文字幕一区二区| 床上的激情91.| 精品国产乱码久久久久久牛牛 | 成人免费av网站| 日韩欧美一二三| 午夜精品久久久久久久99水蜜桃| 成人动漫av在线| 久久综合丝袜日本网| 日韩在线观看一区二区| 欧美综合色免费| 一区二区三区日韩精品视频| 99精品国产热久久91蜜凸| 欧美国产激情一区二区三区蜜月| 日韩成人一区二区| 欧美三区免费完整视频在线观看| 最新不卡av在线| www.av精品| 一卡二卡三卡日韩欧美| 色噜噜狠狠成人中文综合| 中文字幕在线不卡一区| 成人激情午夜影院| 国产精品久久福利| 99精品偷自拍| 一区二区三区欧美激情| 91免费国产在线| 亚洲韩国精品一区| 日韩一区二区三区观看| 久久99国产精品久久| 久久久久久97三级| www.欧美精品一二区| 亚洲激情综合网| 欧美精品成人一区二区三区四区| 天天色天天操综合| 久久精品视频在线看| 91在线码无精品| 午夜精品一区二区三区电影天堂| 欧美一级电影网站| 高清在线观看日韩| 亚洲人成影院在线观看| 欧美日韩国产一级二级| 国产美女在线精品| 亚洲综合图片区| 久久久精品一品道一区| 91免费看片在线观看| 久久电影网站中文字幕| 亚洲天堂中文字幕| 日韩精品在线看片z| 色欧美片视频在线观看| 男男视频亚洲欧美| 亚洲日本在线观看| 欧美不卡123| 色综合久久久久综合体桃花网| 日本91福利区| 亚洲成人一二三| 一区精品在线播放| 国产亚洲一二三区| 日韩美女在线视频| 欧美亚洲愉拍一区二区| 成人美女在线视频| 国产精品一区二区在线观看网站| 亚洲成人午夜影院| 亚洲欧美视频在线观看| 久久久综合视频| 91精品在线麻豆| 欧美日韩免费一区二区三区视频| 不卡一区二区三区四区| 久久99国产精品成人| 日本在线播放一区二区三区| 一区二区三区精品视频在线| 国产精品色哟哟网站| 精品国产免费人成电影在线观看四季 | 欧美精品色综合| 91国产丝袜在线播放| 成人午夜视频福利| 成人国产精品免费观看视频| 国产一区二区在线视频| 久久91精品国产91久久小草| 蜜臀a∨国产成人精品| 三级亚洲高清视频| 日韩av网站免费在线| 亚洲成av人片一区二区三区| 亚洲一区二区三区美女| 亚洲国产日日夜夜| 亚洲bt欧美bt精品| 亚洲va欧美va天堂v国产综合| 亚洲综合一二三区| 丝袜诱惑亚洲看片| 日本aⅴ亚洲精品中文乱码| 另类中文字幕网| 国产精品一区二区视频| 成人av午夜电影| 色综合色狠狠综合色| 欧美高清视频在线高清观看mv色露露十八| 在线免费观看成人短视频| 欧美日韩在线免费视频| 日韩精品中文字幕在线一区| 欧美韩国一区二区| 一级日本不卡的影视| 麻豆精品视频在线| 一本色道a无线码一区v| 欧美高清激情brazzers| 久久久电影一区二区三区| 自拍偷在线精品自拍偷无码专区| ...xxx性欧美| 麻豆一区二区99久久久久| 成人高清av在线| 日韩三级视频在线观看| 中文字幕在线观看不卡| 麻豆精品久久久| 色婷婷久久久综合中文字幕| 欧美一级二级在线观看| 亚洲情趣在线观看| 狠狠色综合日日| 在线国产电影不卡| 国产精品网曝门| 久久成人羞羞网站| 欧美性猛交xxxxxxxx| 久久伊人中文字幕| 亚洲成人精品一区| 99久久综合狠狠综合久久| 欧美xxx久久| 一区二区视频免费在线观看| 国产精品白丝jk黑袜喷水| 欧洲一区在线电影| 亚洲日本在线天堂| 国产91在线|亚洲| 日韩免费观看高清完整版| 亚洲午夜久久久久久久久电影网 | 色av成人天堂桃色av| 欧美韩日一区二区三区四区| 国模娜娜一区二区三区| 欧美一区二区三区人| 亚洲成av人**亚洲成av**| 色偷偷久久一区二区三区| 久久精品日产第一区二区三区高清版 | 蜜臀91精品一区二区三区| 欧美日韩一区成人| 亚洲精选视频免费看| 色综合久久88色综合天天| 亚洲日本在线天堂| 欧美婷婷六月丁香综合色| 亚洲国产精品天堂| 欧美日韩成人在线| 麻豆精品一区二区三区| 日韩一区二区电影| 精品无码三级在线观看视频| 久久久久99精品国产片| 国产精品一二三四区| 国产性做久久久久久| 成人性生交大片免费看在线播放| 亚洲国产精品av| 成人av电影在线| 一区二区三区中文在线观看| 欧美色综合网站| 美国毛片一区二区三区| 久久亚洲精品国产精品紫薇| 岛国av在线一区| 亚洲午夜激情av| 久久午夜免费电影| 91在线小视频|