滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 人工智能 > 正文內(nèi)容

港科大新基準(zhǔn)PhysToolBench：AI工具理解短板與突破之路

時(shí)間：2025-11-15 01:21:52 來(lái)源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評(píng)論無(wú)障礙通道

廚房里突然發(fā)現(xiàn)缺少關(guān)鍵工具，一個(gè)聰明的助手會(huì)怎么做？是直接放棄，還是靈活尋找替代品？這個(gè)看似日常的場(chǎng)景，正折射出人工智能發(fā)展中的關(guān)鍵挑戰(zhàn)——AI系統(tǒng)是否真正理解物理工具的使用邏輯？香港科技大學(xué)研究團(tuán)隊(duì)近期發(fā)布的評(píng)估基準(zhǔn)PhysToolBench，通過(guò)系統(tǒng)性測(cè)試揭示了當(dāng)前AI在工具理解領(lǐng)域的顯著短板。

這項(xiàng)發(fā)表于學(xué)術(shù)平臺(tái)的研究構(gòu)建了包含1000余組圖像-文本對(duì)的測(cè)試集，覆蓋從家庭場(chǎng)景到專業(yè)領(lǐng)域的多樣化工具使用情境。研究團(tuán)隊(duì)將測(cè)試劃分為三個(gè)層級(jí)：基礎(chǔ)識(shí)別層要求AI從圖像中選出特定任務(wù)所需的工具；深度理解層考察對(duì)工具物理特性、組合應(yīng)用及狀態(tài)判斷的能力；創(chuàng)造應(yīng)用層則模擬無(wú)標(biāo)準(zhǔn)工具時(shí)的替代方案生成。測(cè)試結(jié)果顯示，32個(gè)主流AI模型中表現(xiàn)最優(yōu)者得分率僅63%，而人類平均得分超過(guò)90%，暴露出AI在物理世界交互中的根本性局限。

在基礎(chǔ)識(shí)別測(cè)試中，大型模型（參數(shù)量超100億）對(duì)常見(jiàn)工具的識(shí)別準(zhǔn)確率可達(dá)60-70%，但面對(duì)專業(yè)器械或數(shù)字配件時(shí)錯(cuò)誤率驟升。研究特別指出，當(dāng)前嵌入機(jī)器人系統(tǒng)的中小型模型表現(xiàn)堪憂，參數(shù)量低于50億的模型準(zhǔn)確率普遍不足50%，在區(qū)分HDMI線與DP線、Type-C與Lightning接口等相似物品時(shí)錯(cuò)誤頻發(fā)。這種"數(shù)字工具盲區(qū)"可能導(dǎo)致設(shè)備誤操作或損壞。

深度理解測(cè)試揭示了更嚴(yán)峻的問(wèn)題。當(dāng)要求AI在300度高溫環(huán)境下選擇煎鍋時(shí)，多數(shù)模型仍會(huì)推薦不粘鍋而非導(dǎo)熱性更好的鑄鐵鍋；面對(duì)需要充電器、數(shù)據(jù)線、轉(zhuǎn)接器協(xié)同的手機(jī)充電任務(wù)，系統(tǒng)常出現(xiàn)工具遺漏或組合錯(cuò)誤；最令人擔(dān)憂的是可用性判斷測(cè)試中，95%的模型無(wú)法識(shí)別破損工具，甚至?xí)扑]使用柄部斷裂的馬桶疏通器。這種"視覺(jué)幻覺(jué)"現(xiàn)象表明，AI更多依賴表面模式匹配而非本質(zhì)功能理解。

創(chuàng)造性應(yīng)用測(cè)試中，AI的局限性進(jìn)一步顯現(xiàn)。當(dāng)要求用硬幣替代螺絲刀擰緊平頭螺絲時(shí)，僅3%的模型能提出有效方案，多數(shù)系統(tǒng)直接放棄任務(wù)。研究團(tuán)隊(duì)設(shè)置的高難度場(chǎng)景（如野外制作捕獵工具）測(cè)試顯示，即便最先進(jìn)模型也難以將杠桿原理、材料特性等物理知識(shí)轉(zhuǎn)化為實(shí)際應(yīng)用，暴露出知識(shí)遷移能力的嚴(yán)重不足。

針對(duì)這些缺陷，研究團(tuán)隊(duì)提出"視覺(jué)中心推理"改進(jìn)框架。該方案通過(guò)三階段優(yōu)化提升工具理解：首先進(jìn)行場(chǎng)景全局分析，明確任務(wù)需求與可用物品；其次運(yùn)用物體檢測(cè)技術(shù)對(duì)每個(gè)工具進(jìn)行狀態(tài)、材質(zhì)、尺寸等細(xì)節(jié)檢查；最后整合信息完成邏輯推理。實(shí)驗(yàn)數(shù)據(jù)顯示，該方法使GPT-5在困難測(cè)試中的準(zhǔn)確率從36.75%提升至54.81%，特別是在識(shí)別工具損壞狀態(tài)方面改進(jìn)顯著。

研究同時(shí)指出，單純擴(kuò)大模型規(guī)模或增加機(jī)器人訓(xùn)練數(shù)據(jù)并未帶來(lái)預(yù)期效果。專門為機(jī)器人設(shè)計(jì)的RoboBrain-2模型在測(cè)試中表現(xiàn)甚至弱于通用版本，而具備強(qiáng)推理能力的GLM-4.5V等模型雖參數(shù)量較小，卻因邏輯分析能力突出取得更好成績(jī)。這提示未來(lái)開(kāi)發(fā)需更注重因果推理訓(xùn)練與物理原理融入。

該評(píng)估基準(zhǔn)的開(kāi)放特性正推動(dòng)行業(yè)進(jìn)步。研究團(tuán)隊(duì)已公開(kāi)測(cè)試集與評(píng)估代碼，為全球研究者提供統(tǒng)一對(duì)比平臺(tái)。這種標(biāo)準(zhǔn)化測(cè)試體系被認(rèn)為將加速技術(shù)迭代，正如ImageNet推動(dòng)計(jì)算機(jī)視覺(jué)發(fā)展，PhysToolBench或?qū)⒊蔀楹饬緼I物理理解能力的關(guān)鍵指標(biāo)。當(dāng)前AI在工具使用領(lǐng)域仍類似"知識(shí)豐富但缺乏實(shí)踐的學(xué)生"，但隨著視覺(jué)推理、物理建模等技術(shù)的突破，智能助手有望逐步突破現(xiàn)有局限，向真正實(shí)用的方向演進(jìn)。

11-15

清華大學(xué)團(tuán)隊(duì)提出EAGLET框架，讓AI智能體學(xué)會(huì)“深謀遠(yuǎn)慮”規(guī)劃任務(wù)

11-15

全棧AI賦能：阿里云如何以技術(shù)革新重塑2025年雙十一新體驗(yàn)

11-15

中美AI分岔路：中國(guó)AI務(wù)實(shí)突圍，誰(shuí)能率先打破OpenAI“神話”？

11-15

安謀科技發(fā)布“周易”X3 NPU IP，AIGC大模型能力躍升開(kāi)啟端側(cè)AI新篇

智東西11月14日消息，昨日，安謀科技正式發(fā)布了專為端側(cè)大模型而生的最新一代NPUIP——“周易”X3，其能夠與Arm架構(gòu)CPU、GPU協(xié)同，組成基于Arm生態(tài)的異構(gòu)算力解決方案。新的“周易”X3 NP…

11-15

阿里通義App煥新升級(jí)更名千問(wèn) 5.0.0版本攜三大核心能力強(qiáng)勢(shì)登場(chǎng)

今日，阿里旗下通義App今日發(fā)布更新，名稱正式變更為千問(wèn)App，版本號(hào)為5.0.0。在版本 5.0.0中，千問(wèn)強(qiáng)調(diào)其核心能力包括：“對(duì)話問(wèn)答”“智能寫作”“全能相機(jī)”三大模塊。據(jù)知情人士透露，阿里巴巴計(jì)…

11-15

谷歌前工程師再創(chuàng)業(yè)！AI數(shù)據(jù)分析新銳WisdomAI獲英偉達(dá)等3.55億融資

WisdomAI面向企業(yè)客戶推出了AI驅(qū)動(dòng)的對(duì)話式商業(yè)智能（BI）平臺(tái)，提供AI數(shù)據(jù)分析業(yè)務(wù)，用戶只需用自然語(yǔ)言提問(wèn)便可獲取分析后的答案。 WisdomAI稱：“過(guò)去的BI只提供被動(dòng)的、靜態(tài)的儀表板，而Ag…

11-15

電力設(shè)備邂逅互聯(lián)網(wǎng)：開(kāi)啟智能高效綠色能源新征程

互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展，如同一股強(qiáng)大的催化劑，為電力設(shè)備行業(yè)注入了新的活力與機(jī)遇。一、智能化升級(jí)：傳統(tǒng)設(shè)備的數(shù)字化轉(zhuǎn)型過(guò)去，電力設(shè)備的操作往往依賴人工經(jīng)驗(yàn)和定期維護(hù)，存在效率低下、故障響應(yīng)慢等問(wèn)題。當(dāng)電力設(shè)備…

11-14

前小米技術(shù)大咖崔寶秋轉(zhuǎn)戰(zhàn)家庭服務(wù)機(jī)器人，獲頂級(jí)VC青睞布局新賽道

11-14

抖音雙十一反詐在行動(dòng)：余承東、董宇輝等助力，多方共筑安全消費(fèi)防線

11-14

AI浪潮奔涌，誰(shuí)能在商業(yè)化賽道率先突圍，成為下一個(gè)敲鐘者？

11-14

Transformer之父發(fā)聲：AI未來(lái)一兩年將極速躍升，推理模型成關(guān)鍵引擎

11-14

全球最大開(kāi)源具身大模型Pelican-VL問(wèn)世，中國(guó)機(jī)器人從能跑到會(huì)思考

11-14

英偉達(dá)內(nèi)部郵件揭秘：軟件銷售遇挑戰(zhàn) 與大型客戶存理解鴻溝

11-14

廣汽集團(tuán)攜手阿里云深化AI合作共建汽車行業(yè)新基建賦能全業(yè)務(wù)場(chǎng)景升級(jí)

11-14

點(diǎn)擊查看更多 +

全站最新

廣汽華為攜手發(fā)力高端新能源啟境汽車11月20日即將驚艷登場(chǎng)

2025百度世界大會(huì)：AI從“智能涌現(xiàn)”邁向“效果涌現(xiàn)”，李彥宏揭秘前沿成果

13.99萬(wàn)起享百萬(wàn)級(jí)體驗(yàn)！東風(fēng)奕派eπ007+上市，性能智能顏值全拉滿

2025百度世界大會(huì)：搜索大革新多數(shù)結(jié)果AI生成生態(tài)合作共探新可能

百度文庫(kù)網(wǎng)盤GenFlow3.0升級(jí)亮相，海外拓展成果顯著開(kāi)啟新征程

嵐圖泰山11月18日上市！配國(guó)產(chǎn)三腔空懸攜華為科技劍指豪華SUV市場(chǎng)

熱門內(nèi)容

本欄最新

東風(fēng)奕派eπ007+深圳煥新登場(chǎng)：14萬(wàn)級(jí)激光雷達(dá)加持，四驅(qū)轎跑新選擇

24.9萬(wàn)起售！全新奔馳純電CLA攜四大突破，重塑豪華純電新標(biāo)桿

東風(fēng)奕派兩周年獻(xiàn)禮，eπ007+攜四大優(yōu)勢(shì)登場(chǎng)，助力新能源賽道加速跑

東風(fēng)奕派兩周年獻(xiàn)禮：eπ007+攜四大優(yōu)勢(shì)登場(chǎng)，為年輕人出行注入新動(dòng)力

東風(fēng)奕派eπ007+高能登場(chǎng)，以“奕派速度”為年輕人解鎖百萬(wàn)級(jí)出行新體驗(yàn)

嵐圖泰山來(lái)襲：外觀大氣內(nèi)飾豪華能否在高端SUV市場(chǎng)分一杯羹？

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶提供內(nèi)容聽(tīng)讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级

港科大新基準(zhǔn)PhysToolBench：AI工具理解短板與突破之路