廚房里突然發(fā)現(xiàn)缺少關(guān)鍵工具,一個(gè)聰明的助手會(huì)怎么做?是直接放棄,還是靈活尋找替代品?這個(gè)看似日常的場(chǎng)景,正折射出人工智能發(fā)展中的關(guān)鍵挑戰(zhàn)——AI系統(tǒng)是否真正理解物理工具的使用邏輯?香港科技大學(xué)研究團(tuán)隊(duì)近期發(fā)布的評(píng)估基準(zhǔn)PhysToolBench,通過(guò)系統(tǒng)性測(cè)試揭示了當(dāng)前AI在工具理解領(lǐng)域的顯著短板。
這項(xiàng)發(fā)表于學(xué)術(shù)平臺(tái)的研究構(gòu)建了包含1000余組圖像-文本對(duì)的測(cè)試集,覆蓋從家庭場(chǎng)景到專業(yè)領(lǐng)域的多樣化工具使用情境。研究團(tuán)隊(duì)將測(cè)試劃分為三個(gè)層級(jí):基礎(chǔ)識(shí)別層要求AI從圖像中選出特定任務(wù)所需的工具;深度理解層考察對(duì)工具物理特性、組合應(yīng)用及狀態(tài)判斷的能力;創(chuàng)造應(yīng)用層則模擬無(wú)標(biāo)準(zhǔn)工具時(shí)的替代方案生成。測(cè)試結(jié)果顯示,32個(gè)主流AI模型中表現(xiàn)最優(yōu)者得分率僅63%,而人類平均得分超過(guò)90%,暴露出AI在物理世界交互中的根本性局限。
在基礎(chǔ)識(shí)別測(cè)試中,大型模型(參數(shù)量超100億)對(duì)常見(jiàn)工具的識(shí)別準(zhǔn)確率可達(dá)60-70%,但面對(duì)專業(yè)器械或數(shù)字配件時(shí)錯(cuò)誤率驟升。研究特別指出,當(dāng)前嵌入機(jī)器人系統(tǒng)的中小型模型表現(xiàn)堪憂,參數(shù)量低于50億的模型準(zhǔn)確率普遍不足50%,在區(qū)分HDMI線與DP線、Type-C與Lightning接口等相似物品時(shí)錯(cuò)誤頻發(fā)。這種"數(shù)字工具盲區(qū)"可能導(dǎo)致設(shè)備誤操作或損壞。
深度理解測(cè)試揭示了更嚴(yán)峻的問(wèn)題。當(dāng)要求AI在300度高溫環(huán)境下選擇煎鍋時(shí),多數(shù)模型仍會(huì)推薦不粘鍋而非導(dǎo)熱性更好的鑄鐵鍋;面對(duì)需要充電器、數(shù)據(jù)線、轉(zhuǎn)接器協(xié)同的手機(jī)充電任務(wù),系統(tǒng)常出現(xiàn)工具遺漏或組合錯(cuò)誤;最令人擔(dān)憂的是可用性判斷測(cè)試中,95%的模型無(wú)法識(shí)別破損工具,甚至?xí)扑]使用柄部斷裂的馬桶疏通器。這種"視覺(jué)幻覺(jué)"現(xiàn)象表明,AI更多依賴表面模式匹配而非本質(zhì)功能理解。
創(chuàng)造性應(yīng)用測(cè)試中,AI的局限性進(jìn)一步顯現(xiàn)。當(dāng)要求用硬幣替代螺絲刀擰緊平頭螺絲時(shí),僅3%的模型能提出有效方案,多數(shù)系統(tǒng)直接放棄任務(wù)。研究團(tuán)隊(duì)設(shè)置的高難度場(chǎng)景(如野外制作捕獵工具)測(cè)試顯示,即便最先進(jìn)模型也難以將杠桿原理、材料特性等物理知識(shí)轉(zhuǎn)化為實(shí)際應(yīng)用,暴露出知識(shí)遷移能力的嚴(yán)重不足。
針對(duì)這些缺陷,研究團(tuán)隊(duì)提出"視覺(jué)中心推理"改進(jìn)框架。該方案通過(guò)三階段優(yōu)化提升工具理解:首先進(jìn)行場(chǎng)景全局分析,明確任務(wù)需求與可用物品;其次運(yùn)用物體檢測(cè)技術(shù)對(duì)每個(gè)工具進(jìn)行狀態(tài)、材質(zhì)、尺寸等細(xì)節(jié)檢查;最后整合信息完成邏輯推理。實(shí)驗(yàn)數(shù)據(jù)顯示,該方法使GPT-5在困難測(cè)試中的準(zhǔn)確率從36.75%提升至54.81%,特別是在識(shí)別工具損壞狀態(tài)方面改進(jìn)顯著。
研究同時(shí)指出,單純擴(kuò)大模型規(guī)模或增加機(jī)器人訓(xùn)練數(shù)據(jù)并未帶來(lái)預(yù)期效果。專門為機(jī)器人設(shè)計(jì)的RoboBrain-2模型在測(cè)試中表現(xiàn)甚至弱于通用版本,而具備強(qiáng)推理能力的GLM-4.5V等模型雖參數(shù)量較小,卻因邏輯分析能力突出取得更好成績(jī)。這提示未來(lái)開(kāi)發(fā)需更注重因果推理訓(xùn)練與物理原理融入。
該評(píng)估基準(zhǔn)的開(kāi)放特性正推動(dòng)行業(yè)進(jìn)步。研究團(tuán)隊(duì)已公開(kāi)測(cè)試集與評(píng)估代碼,為全球研究者提供統(tǒng)一對(duì)比平臺(tái)。這種標(biāo)準(zhǔn)化測(cè)試體系被認(rèn)為將加速技術(shù)迭代,正如ImageNet推動(dòng)計(jì)算機(jī)視覺(jué)發(fā)展,PhysToolBench或?qū)⒊蔀楹饬緼I物理理解能力的關(guān)鍵指標(biāo)。當(dāng)前AI在工具使用領(lǐng)域仍類似"知識(shí)豐富但缺乏實(shí)踐的學(xué)生",但隨著視覺(jué)推理、物理建模等技術(shù)的突破,智能助手有望逐步突破現(xiàn)有局限,向真正實(shí)用的方向演進(jìn)。











