對層次豐富、復(fù)雜空間世界的深刻理解,正是具身智能(包括機器人)的“大腦”。空間智能不僅完善了感知–行動閉環(huán),還將提升我們的認知能力:例如我們?nèi)绾卧谀X中想象世界、如何進行建模。
在AI時代,信任絕不能外包給機器——它本質(zhì)上屬于人類,存在于個體、社區(qū)與社會層面。
確定無疑的簡單任務(wù)與充滿不確定性的任務(wù),有時難度相當;那就選擇更不確定的那一條,因為在不確定中,創(chuàng)造力會被逼至極限,奇跡才能發(fā)生。
李飛飛曾是Stanford Human-Centered AI Institute的創(chuàng)始主任,如今是World Lab的聯(lián)合創(chuàng)始人兼首席執(zhí)行官,在空間智能領(lǐng)域引領(lǐng)創(chuàng)新。本次訪談是2025 Masters of Scale Summit的一部分,她與主持人Reid Hoffman探討了空間智能新階段。
從語言邊界到世界建模:AGI與空間智能的下一篇章
Ried:大家好,本周我們邀請到了李飛飛參與現(xiàn)場對談,探討AI的現(xiàn)狀與未來走向。我們已經(jīng)一起做了多次這樣的特別分享,令人振奮又深感榮幸,感謝您的到場。
顯而易見,所有關(guān)注你職業(yè)軌跡的人都知道,你是這波AI浪潮中的OG:從ImageNet等奠基性工作開始,你的貢獻奠定了今日的基礎(chǔ)——在此先向你致謝。如今你正專注于空間智能(spatial intelligence)與世界建模(world building)。我想請你分享:是什么促使你從自己深愛的工作——在Stanford CS和Human-Centered AI的崗位上暫時休假,去創(chuàng)辦這家公司?你們正在做什么?
李飛飛:再次感謝你的邀請,我很榮幸站在這里。你剛才提到的那家我共同創(chuàng)立并擔任CEO的公司叫World Labs。你是OpenAI最早的支持者和投資人之一。當OpenAI成立時,我們曾談到AGI的夢想。作為一名AI科學(xué)家,我常在AI與AGI這兩個詞之間搖擺,因為撇開語言差異,它們對我而言幾乎是同一個概念。
Ried:我使用AGI來制造我們還沒有發(fā)明的AI。
李飛飛:我想其實John McCarthy對AGI的理解也許和我相同:AGI意味著機器獲得與人類相當、甚至在許多情況下能夠超越人類的智能。我把它視作通往未來的一扇大門;這扇門上有許多鑰匙孔,而語言就是其中最關(guān)鍵的一把,因為語言是智能的核心組成部分。在斯坦福,還有一個獨特的跨學(xué)科項目Symbolic Systems,融合了哲學(xué)、認知科學(xué)與計算機科學(xué),正是這種多學(xué)科視角讓我們得以更深入理解智能本質(zhì)。
Wittgenstein認為語言定義了世界的邊界,而我并不完全認同這一點。我認為語言只是界定了一個用符號形式描述世界的層級邊界,但在此之外,世界本身是無限的。那么那個世界究竟是什么?我們?nèi)绾稳ザx它?這和智能有何關(guān)聯(lián)?我們又怎樣借助機器去表達它?我非常著迷于這一整套世界建模的思考。
世界建模與語言密切相關(guān),但它關(guān)乎的是對世界狀態(tài)變化的表達、表征,最終還要親身參與這些變化。這個世界既可能是虛擬的,也可能是物理的。那么,世界建模究竟包含什么?它當然包含語言,因為語言是與世界對話的一種方式,但它同樣涵蓋視覺、光線、語義、空間以及物理動作。所有這些仍處于起步階段,而這正是人工智能的下一階段,也是World Labs的目標所在。我們正在努力進行世界建模,嘗試把這種層次的空間智能帶入人工智能的下一個篇章。
世界建模:賦予無限可能的應(yīng)用版圖
Ried:我有兩個問題。第一,現(xiàn)場少數(shù)人對這一領(lǐng)域已頗為深入,但多數(shù)人日常體驗大型語言模型仍停留在ChatGPT、Gemini等產(chǎn)品。那么,他們應(yīng)當如何理解空間智能與此的差異?關(guān)鍵不僅在于認知能力的不同——因為我們的世界并不只由語言構(gòu)成。第二,未來道路將如何展開?為了真正抵達那里,我們需要克服哪些挑戰(zhàn)?
李飛飛:當真正擁有世界建模能力時,我們將獲得前所未有的創(chuàng)造自由。如今,苗頭已初現(xiàn):無數(shù)講故事的人和創(chuàng)作者正跨越像素、電影、雕塑、數(shù)字藝術(shù)等多重媒介,構(gòu)建高度創(chuàng)意、可交互的沉浸式世界。世界建模不僅允許我們生成事物,更能生成可置身其間、可互動的整座世界,這對創(chuàng)作者而言極具吸引力。其應(yīng)用場景遠不止娛樂和敘事——它同樣適用于設(shè)計、工業(yè)、醫(yī)療健康乃至教育等各個領(lǐng)域。
被動娛樂與主動親歷體驗之間的距離正迅速縮小。機器憑借世界建模生成沉浸式體驗的能力極其強大,這也自然延伸至仿真。仿真對人類體驗與學(xué)習(xí),以及具身AI(embodied AI)都至關(guān)重要:機器人既要在現(xiàn)實世界中學(xué)習(xí),也必須在仿真環(huán)境中歷練。回顧機器人史,從自動駕駛汽車到各種自啟動系統(tǒng),仿真始終扮演關(guān)鍵角色;由此來看,其應(yīng)用空間是無邊無際的。
空間智能與世界建模:完善感知-行動的閉環(huán)與具身智能
Ried:機器人技術(shù)始終是熱議話題。我想向所有人劃出一條重點:世界建模對任何旨在提升機器人服務(wù)人類福祉的工作都至關(guān)重要。能否請你闡釋一下,為何這套認知能力如此關(guān)鍵?
李飛飛:這是個好問題。我為此思考了很久。坦白說,在計算機視覺的第一波浪潮中,當我們已經(jīng)達到了前所未有的精度與質(zhì)量,我反而陷入了小小的危機,開始反省:感知究竟意味著什么?視覺到底有何使命?我原以為解決目標識別至少需要一百年,結(jié)果進展遠比預(yù)想迅速。于是,我需要新的“北極星”,這把我拉回到進化論。
大約5.3億年前,地球發(fā)生了一場驚人的進化事件——寒武紀大爆發(fā);動物物種在那段時期急劇分化,神經(jīng)系統(tǒng)與光敏細胞也隨之萌芽。當我讀完眾多資料并加以深思,這一切突然令我豁然開朗。動物之所以在進化上發(fā)展出感知,根本原因是為了行動與互動;感知本質(zhì)上是主動的,而非被動接受訊息。由此可見,感知智能構(gòu)成了一切運動的基石。最初的運動不過是把身體簡單地挪到另一處;轉(zhuǎn)瞬間,運動便演化成更復(fù)雜的互動——從爭奪食物、交配、筑巢到撫育后代,無所不包。以哺乳動物乃至人類為例,我們的運動能力極其精細:僅手指、腳趾、軀干之間就擁有極高的自由度。所有這些動作都依賴于我們對所處環(huán)境的空間智能與根本感知——唯有如此,我們才能理解周圍世界并規(guī)劃每一步行動。在我看來,對層次豐富、復(fù)雜空間世界的深刻理解,正是具身智能(包括機器人)的“大腦”。
Ried:實際上,機器人讓我們真切體會到:要讓機器真正具身,就必須賦予它們具身智能。這與我們剛才談到維特根斯坦時的觀點遙相呼應(yīng)——世界中的認知推理能力絕不僅限于語言層面。雖然這有點哲學(xué)意味,但面向未來,空間智能會帶來其他形式的智能,同樣關(guān)鍵。傳統(tǒng)西方把“感知”視作攝像機、把“行動”當作獨立模塊的觀念顯然站不住腳,你剛才也指出了這一點。空間智能不僅完善了感知–行動閉環(huán),還將提升我們的認知能力:例如我們?nèi)绾卧谀X中想象世界、如何進行建模。那么,當我們?yōu)樗蠥I系統(tǒng)引入空間智能后,你認為會涌現(xiàn)出哪些新的推理特征?
李飛飛:縱觀人類文明的發(fā)展史,很多關(guān)鍵里程碑根本無法僅靠語言完成;空間推理與世界建模的重要性一目了然。以早期的金字塔建造為例:我們必須先抽象出幾何概念,形成對幾何的敏銳直覺,再推進巨型結(jié)構(gòu)的建造。整套過程蘊含極其豐富的認知級空間推理,遠遠超越“看見某物、就把它搬過去”這類簡單的事務(wù)性動作。再舉一個例子:DNA結(jié)構(gòu)的推斷過程。本質(zhì)上,眾多科學(xué)家都在通過各類線索意識到遺傳物質(zhì)里隱藏著某種關(guān)鍵結(jié)構(gòu),但真正的突破,源于Rosalind Franklin拍攝的X射線衍射圖像——一幅扁平的“十字”狀照片。正是基于這幅圖,F(xiàn)rancis Crick和James Watson才推演出DNA雙螺旋的三維交織結(jié)構(gòu)。這一跨越完全依賴深度的空間推理:單靠語言絕不可能演繹出這樣的形態(tài)(當然語言依舊是輔助工具,我本人也熱愛語言)。這恰恰是人類利用空間認知能力,完成前所未有發(fā)現(xiàn)的經(jīng)典范例。因此,當我們?yōu)锳I賦予這類空間智能,它的價值絕不限于讓機器人拾取杯子或方塊,而是能整體提升人類能力——我們將與具備此能力的機器協(xié)同,共同開拓全新的認知與創(chuàng)造空間。
AI產(chǎn)業(yè)化:信任絕不能外包給機器
Ried:接下來我們從宏觀層面聊聊:如今關(guān)于AI的討論很多——到底是被過度炒作還是被低估?在硅谷,幾乎所有人都覺得低估;也有人擔心,我們是否會迎來下一輪AI寒冬。你怎么看當前這場爭論?哪些領(lǐng)域其實被嚴重低估,哪些方向可能還為時過早,又有哪些點確實被吹過頭了?請分享你的洞見,幫大家分辨真?zhèn)蝺?yōu)劣。
李飛飛:我必須謹慎作答,我相信AI是一項文明級技術(shù)。即便靈感源于人類進化,任何能復(fù)制人類核心思考與行動能力的技術(shù),都足以引發(fā)顛覆性變革。在我看來,作為人類智力未來的基石,AI并未被過度炒作,因為AI已成為新的計算范式。放眼當今世界,思考芯片所在之處——從燈泡到自動駕駛汽車,再到飛機——芯片無處不在;芯片是計算發(fā)生的物理載體。顯而易見,只要有芯片就有計算,只要有計算,AI遲早會出現(xiàn)。因此,無論從商業(yè)層面還是應(yīng)用場景來看,AI都毫無疑問代表未來。
舉例來說,塞巴斯蒂安·特倫的第一輛自動駕駛汽車,從能夠在沒有交通的內(nèi)華達沙漠中行駛130英里,到如今在舊金山街頭跑得更遠,整整花了二十多年。你可能會說,這部分是因為當時的軟件還停留在深度學(xué)習(xí)出現(xiàn)之前的階段,軟件開發(fā)進展較慢。確實,深度學(xué)習(xí)后來加速了自動駕駛汽車的“大腦”,但別忘了,汽車產(chǎn)業(yè)及其完整的供應(yīng)鏈和消費者基礎(chǔ)已經(jīng)存在百余年,擁有極其成熟的商業(yè)模式、基礎(chǔ)設(shè)施和制造體系。因此,僅僅讓汽車這種道路上最簡單的機器人形態(tài)實現(xiàn)自動駕駛,就耗費了二十年的光陰。
嚴格來講汽車不過是一個在二維平面上移動的方盒子,你唯一要確保的就是別撞到任何東西。可機器人就完全不同:機器人是一臺三維機器,它的核心任務(wù)就是“觸碰”,而且要“正確地觸碰”。這其中的復(fù)雜度非常高,所以我認為機器人技術(shù)的發(fā)展之路還很長。
Ried:百分之百同意。要讓這項文明級技術(shù)真正落地,關(guān)鍵在于建立信任。不論是依靠技術(shù)專家、公司,還是其他主體——作為行業(yè)領(lǐng)袖、企業(yè)和創(chuàng)業(yè)者,我們應(yīng)當采取哪些舉措來促成這份信任?畢竟只有在信任建立之后,我們才能真正享受到AI帶來的價值。
李飛飛:在AI時代,信任絕不能外包給機器——它本質(zhì)上屬于人類,存在于個體、社區(qū)與社會層面。也正因如此,我們早在2018年就成立了Stanford Human-Centered AI Institute,遠在這波AI浪潮全面爆發(fā)之前。我們意識到:隨著機器在計算、推理乃至行動能力上的持續(xù)增強,必須把新的規(guī)范織入社會肌理。在這種規(guī)范下,人類仍然有能力通過AI更新的工具、聊天機器人等更強大的產(chǎn)品來建立彼此之間的信任。最終,這份信任還需被納入并迭代我們的治理模型,不僅關(guān)乎社區(qū)與企業(yè),更關(guān)乎整個社會。因此,我認為信任在這場變革中至關(guān)重要。
我們的觀眾大多是創(chuàng)業(yè)者。我想強調(diào):從一開始就要重視信任。無論你們開發(fā)的是何種產(chǎn)品或業(yè)務(wù),都要牢記這一點。有些人身處醫(yī)療健康領(lǐng)域,深知信任的分量;有些人專注于基礎(chǔ)設(shè)施或其他看似距離用戶較遠的應(yīng)用,但別忘了,你們同樣在服務(wù)個人和企業(yè)。信任至關(guān)重要,而其根源始終來自人的主動性。
無畏精神:創(chuàng)新者的北極星
Ried:你和Etch主導(dǎo)的那項以人為本的AI工作(源于《紐約時報》的專欄)促使我開始明白我們必須貫徹的核心要務(wù)之一就是提升人類的主體性。那我們就以科學(xué)視角來結(jié)束今天的對談吧。你曾說,科學(xué)家必須保持“智識上的無畏”——也就是心懷無所畏懼的精神。這對我們構(gòu)想未來意味著什么?又對科學(xué)在下一代創(chuàng)新者的推進方式有何啟示?無畏精神應(yīng)在其中扮演怎樣的角色?
李飛飛:這是個好問題。如果說科學(xué)家需要無畏,創(chuàng)業(yè)者就更要無畏。我非常喜歡Fearless這個詞,也把它作為招聘時的重要標準,尤其希望年輕人擁有這種無畏精神。Fearless的含義是自由——擺脫束縛創(chuàng)造力、勇氣和執(zhí)行力的枷鎖。順帶一提,“get shit done”在我們公司是一種“技術(shù)術(shù)語”,也是核心文化的一部分。
你知道,人類并非地球上速度最快或力量最強的生物。今年夏天,我?guī)Ш⒆尤チ朔侵蓿抢镉性S多動物在各方面都遠勝于我們。但在我們的頭腦、心靈與靈魂深處,存在一種力量,能驅(qū)動我們?yōu)槭澜纭樽约骸楸舜藙?chuàng)造非凡價值。這股力量源于人類獨特的創(chuàng)造力與社群意識。要真正釋放它,尤其在技術(shù)高速迭代的時代,更需無畏前行。
對我而言,最根本的情感準則是:保持創(chuàng)造力,保持自由——而這最終化作無畏。要勇敢沖向未知,擁抱那些前所未有的大膽想法,并讓它們落地;要敢于驗證唱反調(diào)的假設(shè),投身最艱難的任務(wù)。有人說過(我忘了是誰):確定無疑的簡單任務(wù)與充滿不確定性的任務(wù),有時難度相當;那就選擇更不確定的那一條,因為在不確定中,創(chuàng)造力會被逼至極限,奇跡才能發(fā)生。我鐘愛“無畏”這句話,正因其所在之處,邊界被打破,創(chuàng)意被釋放,魔法隨之顯現(xiàn)。











