當(dāng)人工智能在文本生成、圖像創(chuàng)作和視頻制作領(lǐng)域掀起變革浪潮時,科學(xué)家們卻將目光投向了更深層的挑戰(zhàn)——如何讓機(jī)器真正理解物理世界。美國國家工程院、國家醫(yī)學(xué)院和藝術(shù)與科學(xué)院三院院士李飛飛近日在社交平臺發(fā)布萬字長文《從語言到世界:空間智能是AI的下一個前沿》,引發(fā)學(xué)術(shù)界與產(chǎn)業(yè)界的熱烈討論。她直言,當(dāng)前以大語言模型和圖像分類器為主導(dǎo)的技術(shù)范式已觸及天花板,具備空間感知能力的AI將成為突破瓶頸的關(guān)鍵。
當(dāng)前AI的"能說會道"與"笨手笨腳"形成鮮明對比。社交平臺上,用戶用豆包生成的照片常出現(xiàn)荒誕場景:沙漠中的駱駝大如猛犸象,兔子與長頸鹿的脖子長度混淆。OpenAI的文生視頻模型Sora更鬧出國際笑話——其發(fā)布的螞蟻視頻中,這種六足昆蟲竟被畫成四條腿。這一失誤讓兩位人工智能領(lǐng)域頂尖學(xué)者罕見達(dá)成共識:meta首席AI科學(xué)家楊立昆揶揄"螞蟻有六條腿",紐約大學(xué)教授加里·馬庫斯則警告"今天搞錯螞蟻,明天就可能算錯月球軌道"。升級后的Sora2雖提升了畫面流暢度,但男子揮舞棍子的流蘇仍會時隱時現(xiàn),暴露出物理規(guī)律理解的缺陷。
西湖大學(xué)空間智能實驗室負(fù)責(zé)人劉沛東指出,現(xiàn)有AI系統(tǒng)的核心短板在于缺乏對物理世界的常識性認(rèn)知。語言模型處理的是人造符號系統(tǒng),而真實世界遵循物理定律,二者存在本質(zhì)差異。他以"買咖啡"的指令為例:"這需要機(jī)器自主分解任務(wù)、規(guī)劃路徑并應(yīng)對突發(fā)狀況,但當(dāng)前系統(tǒng)連'球滾出可能意味著有兒童追逐'這樣的因果推理都難以完成。"這種局限直接導(dǎo)致自動駕駛汽車在復(fù)雜路況下的安全隱患,以及掃地機(jī)器人因誤判障礙物而將貓糞涂抹滿地的尷尬場景。
空間智能的概念源于教育心理學(xué)領(lǐng)域。上世紀(jì)80年代,霍華德·加德納在多元智能理論中將其定義為對空間信息的感知、操作能力,涵蓋三維思維、圖形敏感等維度。這種能力在人類文明進(jìn)程中屢建奇功:埃拉托色尼通過日影測量地球周長,哈格里夫斯發(fā)明珍妮紡紗機(jī)革新紡織業(yè),沃森與克里克破解DNA結(jié)構(gòu)之謎。當(dāng)科學(xué)家將這一概念引入AI領(lǐng)域時,他們希望機(jī)器能像人類嬰兒般,從觀察世界中自然發(fā)展出空間認(rèn)知能力。
產(chǎn)業(yè)界已展開激烈角逐。2025年拉斯維加斯消費電子展上,英偉達(dá)推出Cosmos世界模型,可生成物理感知視頻;群核科技開源的SpatialLM空間語言模型登上AI開源社區(qū)熱榜第二;谷歌DeepMind發(fā)布的Genie 3支持實時交互,為游戲開發(fā)和教育領(lǐng)域帶來新可能;李飛飛參與創(chuàng)立的World Lab更推出首款多模態(tài)產(chǎn)品Marble,用戶可通過文本、照片或3D圖紙生成可編輯的虛擬環(huán)境。這些突破背后,是科學(xué)家們對"世界模型"的共同追求——這種模擬物理規(guī)則的內(nèi)部系統(tǒng),能讓AI像人類一樣直覺預(yù)判咖啡杯墜落軌跡,而非依賴復(fù)雜計算。
但技術(shù)突破仍面臨重重障礙。真實世界的復(fù)雜性遠(yuǎn)超現(xiàn)有數(shù)學(xué)模型的處理能力,地球內(nèi)部構(gòu)造等難以觀測的數(shù)據(jù)限制著模型精度,暗物質(zhì)等未解物理現(xiàn)象更讓建模缺乏實驗支撐。群核科技首席科學(xué)家周子寒坦言:"當(dāng)前空間智能技術(shù)多停留在圖像理解層面,李飛飛提出的范式若能突破,將在自動駕駛、機(jī)器人、虛擬現(xiàn)實等領(lǐng)域引發(fā)變革。"這場關(guān)于物理世界理解權(quán)的競賽,或許才剛剛拉開帷幕。







