国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级

ITBear旗下自媒體矩陣:

復旦大學AgentGym-RL框架:小模型大智慧,AI智能體學會復雜任務長期規(guī)劃

   時間:2025-09-23 03:54:03 來源:小AI編輯:快訊 IP:北京 發(fā)表評論無障礙通道
 

復旦大學研究團隊近期在人工智能訓練領域取得重大突破,開發(fā)出一套名為AgentGym-RL的創(chuàng)新訓練框架。該框架通過模擬人類漸進式學習過程,成功讓僅含70億參數(shù)的小型AI模型在復雜任務中展現(xiàn)出超越千億參數(shù)商業(yè)模型的性能。這項成果已發(fā)表在arXiv平臺,開源代碼和數(shù)據(jù)集同步在GitHub公開。

傳統(tǒng)AI訓練存在顯著局限:多數(shù)系統(tǒng)只能處理單次交互的簡單任務,面對需要多步驟規(guī)劃的復雜場景時表現(xiàn)欠佳。研究團隊形象地比喻,現(xiàn)有AI就像只會背書的學生,缺乏真正的理解和創(chuàng)新能力。在需要持續(xù)互動的任務中,這些系統(tǒng)往往因訓練不穩(wěn)定而崩潰,如同初學者同時學習駕駛和導航般手忙腳亂。

AgentGym-RL框架創(chuàng)造性地設計了五大訓練環(huán)境,構建起AI的"虛擬游樂園"。網(wǎng)頁導航環(huán)境模擬真實網(wǎng)站交互,要求AI完成購物、論壇管理等任務;深度搜索環(huán)境訓練信息檢索能力,需整合多個信息源得出結論;數(shù)字游戲環(huán)境采用文本版Minecraft,考驗策略規(guī)劃和資源管理;具身任務環(huán)境通過虛擬空間導航,測試空間推理能力;科學任務環(huán)境則專注實驗設計和數(shù)據(jù)分析。

研究團隊開發(fā)的ScalingInter-RL訓練方法堪稱框架核心。該方法采用漸進式策略,初期限制AI與環(huán)境的交互次數(shù),使其專注掌握基礎技能,如同教練先讓學員在空曠場地熟悉駕駛。隨著訓練深入,逐步增加交互復雜度,鼓勵探索更高級策略。這種"先易后難"的模式有效解決了傳統(tǒng)強化學習中的探索-利用平衡難題。

實驗數(shù)據(jù)顯示,經(jīng)過AgentGym-RL訓練的70億參數(shù)模型性能提升達33.65個百分點。在網(wǎng)頁導航任務中,該模型準確率達26%,超越GPT-4o的16%和Gemini-2.5-Pro的28%。深度搜索任務表現(xiàn)更為突出,取得38.25分的整體得分,接近頂級開源模型DeepSeek-R1-0528的40.25分。在數(shù)字游戲最高難度級別,該模型是少數(shù)獲得非零分數(shù)的系統(tǒng)之一。

研究團隊發(fā)現(xiàn),增加測試時的計算資源能顯著提升模型表現(xiàn)。當交互回合數(shù)從2次增加到30次時,模型準確率穩(wěn)步上升;并行采樣次數(shù)從1次增至64次,成功率提升最高達7.05個百分點。這表明,對于AI智能體而言,戰(zhàn)略性地投入更多計算資源進行推理,比單純增加模型參數(shù)更有效。

算法比較實驗揭示了訓練方法的重要性。GRPO算法在多個任務中表現(xiàn)優(yōu)于REINFORCE++,使用GRPO訓練的30億參數(shù)模型性能甚至超過使用REINFORCE++訓練的70億參數(shù)模型。研究還發(fā)現(xiàn),訓練初期嚴格限制交互次數(shù)能確保穩(wěn)定性,后期逐步放開則有助于學習復雜策略,這種動態(tài)調(diào)整策略取得了最佳效果。

案例分析生動展示了訓練成果。在網(wǎng)頁導航任務中,經(jīng)過強化學習的模型遇到"頁面未找到"錯誤時,會主動回退到主頁使用搜索功能,而基礎模型則陷入無效點擊循環(huán)。具身導航任務中,訓練后的模型能系統(tǒng)性探索環(huán)境,遇到阻礙時選擇替代路徑,基礎模型則常在已探索區(qū)域徘徊。

環(huán)境結構對學習效果的影響研究帶來重要啟示。在規(guī)則明確的模擬環(huán)境中,如數(shù)字游戲和科學實驗,強化學習效果最為顯著,模型得分提升幅度接近50個百分點。而在更開放的網(wǎng)頁導航和深度搜索環(huán)境中,提升幅度相對溫和。這表明訓練初期應優(yōu)先選擇結構化環(huán)境,逐步引入復雜場景。

這項研究不僅在技術上取得突破,更體現(xiàn)了方法創(chuàng)新的重要性。通過漸進式訓練和多樣化環(huán)境設計,小規(guī)模模型也能獲得強大能力。開源框架的發(fā)布為全球研究者提供了研究基礎,促進了AI智能體技術的普及。研究顯示,中國在AI基礎研究領域的創(chuàng)新能力正不斷提升,為國際AI社區(qū)貢獻了新的智慧。

對技術細節(jié)感興趣的讀者可訪問項目GitHub頁面獲取完整代碼和數(shù)據(jù)集,或查閱arXiv平臺上的完整論文(編號:arXiv:2509.08755v1)。這項研究將推動AI從簡單問答向真正理解復雜任務、制定長期計劃的智能伙伴發(fā)展,在網(wǎng)頁操作、信息搜索、科學研究等領域展現(xiàn)廣闊應用前景。

 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關于我們  |  聯(lián)系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级
欧美激情综合五月色丁香| 色偷偷一区二区三区| 大胆亚洲人体视频| 综合激情网...| 欧美一区二区三区影视| 国产福利一区二区三区视频| 亚洲乱码国产乱码精品精可以看 | 亚洲免费在线电影| 91精品久久久久久久91蜜桃 | 亚洲三级在线免费| 91精品国产乱| 欧美日韩欧美一区二区| 91麻豆国产香蕉久久精品| 国产毛片精品国产一区二区三区| 亚洲va欧美va天堂v国产综合| 91精品免费在线| 3d动漫精品啪啪一区二区竹菊| 91在线丨porny丨国产| 99久久精品久久久久久清纯| 国产激情91久久精品导航| 国内久久婷婷综合| 国产毛片精品一区| 99视频国产精品| 欧美少妇bbb| 日韩欧美在线不卡| 久久久不卡网国产精品一区| 26uuu精品一区二区三区四区在线| 欧美白人最猛性xxxxx69交| 日韩欧美一二区| 欧美国产1区2区| 婷婷久久综合九色综合绿巨人 | 亚洲国产综合视频在线观看| 日韩专区一卡二卡| av激情综合网| 国产丝袜在线精品| 水蜜桃久久夜色精品一区的特点| 国产在线视频精品一区| 色婷婷综合久久久久中文 | 精品一区二区日韩| 色综合久久久久网| 久久综合久久鬼色| 秋霞影院一区二区| 69堂成人精品免费视频| 亚洲精品视频免费观看| jlzzjlzz国产精品久久| 久久亚区不卡日本| 国产尤物一区二区| 精品国精品国产| 国产乱码精品一区二区三区忘忧草| 91成人看片片| 五月天激情小说综合| 欧美色大人视频| 久久国产综合精品| 精品少妇一区二区三区在线播放| 亚洲欧美日韩久久| 91麻豆精品国产91久久久使用方法| 亚洲永久免费视频| 日韩视频一区二区三区 | 色综合天天性综合| 日韩电影一区二区三区四区| 精品欧美久久久| 北条麻妃一区二区三区| 亚洲国产中文字幕| 国产精品久久久久影视| 在线视频一区二区免费| 极品美女销魂一区二区三区免费| 国产欧美久久久精品影院| 欧美色大人视频| 99久久伊人精品| 国产成人精品免费网站| 美女一区二区三区在线观看| 亚洲精品亚洲人成人网在线播放| 欧美一区国产二区| 欧美色精品在线视频| 国产乱子伦视频一区二区三区| 亚洲一区二区不卡免费| 国产精品美女久久久久av爽李琼 | 欧美日韩和欧美的一区二区| 不卡高清视频专区| 精品一区二区三区免费播放| 另类中文字幕网| 国产成人免费视| 日本高清成人免费播放| 欧美少妇性性性| 欧美少妇xxx| 久久综合久久鬼色中文字| 欧美激情一区在线观看| 成人免费视频在线观看| 丝袜脚交一区二区| 国产精品18久久久久久久网站| 成人av网站在线观看| 7878成人国产在线观看| 欧美成人精品1314www| 国产丝袜欧美中文另类| 亚洲美女免费视频| 韩国成人福利片在线播放| 色噜噜偷拍精品综合在线| 欧美高清视频不卡网| 亚洲丝袜另类动漫二区| 精品一区二区三区蜜桃| 欧美三区在线观看| 亚洲欧美偷拍卡通变态| 国产夫妻精品视频| 日韩精品资源二区在线| 亚洲国产成人av网| 欧美午夜影院一区| 亚洲欧洲三级电影| 波多野结衣中文字幕一区二区三区| 91麻豆精品国产91久久久久久久久| 一卡二卡三卡日韩欧美| 在线精品观看国产| 亚洲一区二区美女| 欧美日韩aaa| 免费人成精品欧美精品| 日韩欧美二区三区| 国产最新精品免费| 亚洲精品福利视频网站| 91国在线观看| 青青国产91久久久久久| 欧美xxxxx牲另类人与| 国产iv一区二区三区| 亚洲少妇最新在线视频| 欧美日韩国产精选| 粉嫩高潮美女一区二区三区| 亚洲欧洲成人av每日更新| 911精品国产一区二区在线| 成人免费视频网站在线观看| 亚洲图片有声小说| 亚洲色图在线看| 国产精品日韩精品欧美在线| 欧美成人免费网站| 91精品国产91久久综合桃花| 成人国产精品免费| 国产盗摄精品一区二区三区在线 | 国产调教视频一区| 日韩三级伦理片妻子的秘密按摩| 不卡av在线免费观看| 国产成人免费9x9x人网站视频| 美女免费视频一区| 久久91精品国产91久久小草| 狂野欧美性猛交blacked| 奇米在线7777在线精品| 免费久久精品视频| 久久国产精品区| 成人久久18免费网站麻豆| 不卡的av中国片| 在线亚洲精品福利网址导航| 精品国产凹凸成av人网站| 最近中文字幕一区二区三区| 精品黑人一区二区三区久久| 2022国产精品视频| 欧美一区二区私人影院日本| 欧美一级高清片在线观看| 久久久99免费| 亚洲乱码日产精品bd| 蜜臂av日日欢夜夜爽一区| 国产大陆精品国产| 欧美精品一卡二卡| 国产精品乱码人人做人人爱| 亚洲第一狼人社区| 国产成人一级电影| 91精品国产免费| 亚洲一区二区综合| 97精品电影院| 日韩一区在线看| 国产成人精品影视| 欧美电视剧免费观看| 亚洲第一福利一区| 91小视频免费观看| 国产精品免费久久久久| 国产做a爰片久久毛片| 日韩精品专区在线影院重磅| 日日摸夜夜添夜夜添精品视频| 国产成人免费视频精品含羞草妖精| 欧美一级搡bbbb搡bbbb| 午夜精品123| 91精品国产综合久久久久久| 亚洲小说春色综合另类电影| 欧美伦理影视网| 免费在线视频一区| 国产精品美女久久久久久| 一本大道av伊人久久综合| 亚洲午夜成aⅴ人片| 久久久久国产精品麻豆| 色婷婷av一区二区三区大白胸| 一区二区三区**美女毛片| 欧美日韩在线播放三区四区| 蜜臀av一区二区在线观看| 国产精品盗摄一区二区三区| 欧美丝袜自拍制服另类| 国产999精品久久久久久绿帽| 一区二区三区 在线观看视频| 精品久久人人做人人爽| 欧美色图激情小说| 色呦呦网站一区| 白白色 亚洲乱淫| 国产成人综合网站| 国产成人h网站| 国产成人av电影免费在线观看| 美国十次综合导航|