斯坦福大學教授、WorldLabs聯(lián)合創(chuàng)始人李飛飛近日發(fā)表長文《從文字到世界:空間智能是AI的下一個前沿》,深入探討了當前人工智能技術在理解物理世界方面的局限性,并指出空間智能將成為突破這一瓶頸的關鍵。
李飛飛認為,以大型語言模型為代表的AI系統(tǒng)雖擅長處理抽象知識,卻如同在黑暗中摸索,缺乏對三維世界的真實感知。她將空間智能定義為人類理解、導航并與物理環(huán)境交互的基礎能力,認為這是實現(xiàn)機器真正智能的核心突破口。這種能力不僅關乎視覺識別,更涉及對空間關系、物理規(guī)律和動態(tài)變化的深層理解。
文章追溯了AI發(fā)展的歷史脈絡,指出自1950年圖靈提出"機器能否思考"的問題以來,科學界對智能本質的探索從未停歇。當前生成式AI雖已能生成文本、圖像和視頻,但在自主機器人、科學發(fā)現(xiàn)等需要物理交互的領域仍顯不足。李飛飛以自身25年的AI研究經歷為例,強調從構建ImageNet數(shù)據(jù)集到融合計算機視覺與機器人學習的探索,始終圍繞著空間智能這一核心。
空間智能在人類認知中扮演著支架角色。李飛飛舉例說明,日常停車時的空間判斷、消防員在煙霧中的即時決策、兒童通過互動學習世界等行為,都依賴這種直觀的空間理解能力。歷史上,埃拉托斯特尼計算地球周長、珍妮紡織機的空間革新、DNA結構的物理建模等重大突破,無不展現(xiàn)了空間智能推動文明進步的力量。
當前AI的空間能力雖取得進展,但仍存在根本局限。多模態(tài)模型雖能分析圖像、生成視頻,卻在距離估算、物體旋轉等基礎空間任務上表現(xiàn)不佳。AI生成的視頻常因缺乏物理連貫性而迅速失真,機器人操作也僅限于高度受限的環(huán)境。李飛飛指出,AI對世界的理解應是整體性的,需通過想象、推理和互動來把握空間關系,而非僅停留在描述層面。
為實現(xiàn)具有空間智能的AI,李飛飛提出構建"世界模型"的愿景。這種新型生成模型需具備三大能力:生成性,即創(chuàng)建幾何和物理一致的模擬世界;多模態(tài)性,能處理圖像、視頻、文本等多種輸入;交互性,可根據(jù)操作預測世界狀態(tài)變化。她強調,世界模型的維度遠超語言模型,需協(xié)調語義、幾何、動態(tài)和物理等多重約束。
WorldLabs的研究團隊正致力于攻克相關技術障礙,包括設計通用任務函數(shù)、開發(fā)大規(guī)模訓練數(shù)據(jù)算法、探索3D/4D感知架構等。近期,團隊發(fā)布了首個可通過多模態(tài)輸入生成一致3D環(huán)境的世界模型Marble,允許用戶在創(chuàng)意流程中探索和互動。這一進展標志著AI向空間智能邁出了重要一步,但李飛飛也承認,要實現(xiàn)人類水平的空間理解,仍需克服諸多挑戰(zhàn)。
空間智能的發(fā)展不僅關乎理論突破,更將催生新型創(chuàng)意和生產力工具。從醫(yī)療機器人到沉浸式體驗,從材料科學到日常輔助,具備空間理解能力的AI將深刻改變人類生活。隨著研究推進,這一領域正吸引越來越多研究者、工程師和商業(yè)領袖的關注,預示著AI發(fā)展將進入一個全新階段。












