美國華人科學(xué)家、斯坦福大學(xué)計算機科學(xué)教授李飛飛,因其對人工智能領(lǐng)域的卓越貢獻,被譽為“AI教母”。近日,由她擔(dān)任聯(lián)合創(chuàng)始人兼CEO的World Labs公司,正式發(fā)布了一款名為RTFM(Real-Time frame Model,實時幀模型)的全新實時生成式世界模型,再次引發(fā)科技界廣泛關(guān)注。
RTFM基于大規(guī)模視頻數(shù)據(jù)進行端到端訓(xùn)練,是一款自回歸擴散Transformer模型。其最大亮點在于無需依賴顯式3D表征,僅通過輸入一張或多張2D圖像,即可生成不同視角下的全新2D圖像。業(yè)內(nèi)人士稱其為“學(xué)會渲染的AI”,因其能夠精準(zhǔn)建模3D幾何、反射、陰影等復(fù)雜物理現(xiàn)象,甚至可以利用稀疏照片重建真實場景。
據(jù)介紹,該模型具備高效性、可擴展性和持久性三大核心優(yōu)勢。在硬件配置上,僅需一塊英偉達H100 GPU芯片,即可實現(xiàn)實時渲染持久且3D一致的場景,無論是真實空間還是虛擬想象場景,均能提供交互式體驗。李飛飛團隊在技術(shù)文章中指出,隨著算力成本持續(xù)下降,生成式世界模型將從中受益,并逐步占據(jù)主導(dǎo)地位。
前谷歌高級工程師Rui Diao對RTFM給予高度評價,認(rèn)為其解決了長期困擾世界模型可擴展性的問題。他指出,傳統(tǒng)視頻架構(gòu)在生成交互視頻流時面臨巨大挑戰(zhàn),例如生成60幀的4K視頻每秒需處理超過10萬個token,而維持一小時以上的持續(xù)交互,上下文token將突破1億大關(guān)。基于當(dāng)前計算基礎(chǔ)設(shè)施,這種方案既不可行也不經(jīng)濟。
空間智能的概念最早由美國心理學(xué)家霍華德·加德納提出,指人類或機器在三維空間中的感知、理解和交互能力。對于人類而言,它包括以三維方式思考、重現(xiàn)和修飾影像的能力;對于機器而言,則是指其在三維空間中處理視覺數(shù)據(jù)、精準(zhǔn)預(yù)測并采取行動的能力。李飛飛曾表示,視覺能力引發(fā)了寒武紀(jì)大爆發(fā),而“我們想要的不僅僅是能看會說的AI,我們想要的是能做的AI”。
隨著生成式AI技術(shù)的興起,“空間智能+世界模型”成為實現(xiàn)通用人工智能(AGI)的重要路徑之一。強大的世界模型能夠?qū)崟r重建、生成并模擬具有持久性、可交互且物理精確的世界,這將徹底改變軟件、機器人等多個領(lǐng)域。李飛飛認(rèn)為,空間智能與世界模型是解決AI技術(shù)難題的關(guān)鍵。
今年3月,李飛飛聯(lián)合Ben Mildenhall、Justin Johnson、Christoph Lassner三位學(xué)者創(chuàng)立World Labs,致力于研發(fā)高效、可擴展的生成式世界模型。RTFM的通用端到端架構(gòu)能夠隨數(shù)據(jù)與算力增長不斷優(yōu)化,而“帶位姿幀空間記憶”與“上下文調(diào)度”技術(shù)則確保了場景的持久性,即使長時間交互也能保持一致性。
在融資方面,World Labs于今年9月宣布獲得2.3億美元(約合人民幣16億元)投資,由a16z、NEA恩頤投資和Radical Ventures領(lǐng)投,AMD、Adobe、Databricks的風(fēng)投部門以及Shinrai Investments LLC參與,英偉達創(chuàng)投部門也加入其中。公司目前擁有約24名員工,其中華人約占三分之一,成立僅三個月估值便達到10億美元(約合70億元)。
投資人透露,World Labs的未來規(guī)劃分為三個階段:第一階段構(gòu)建對三維、物理以及空間和時間概念有深入理解的空間智能大模型LWM;第二階段支持增強現(xiàn)實(AR)應(yīng)用;第三階段將模型應(yīng)用于機器人技術(shù),改進自動駕駛汽車、自動化工廠和人形機器人等領(lǐng)域。李飛飛表示,團隊最早將于2025年推出產(chǎn)品,并承認(rèn)在盈利模式等方面仍需突破。
除了World Labs,李飛飛還在推動Behavior視覺挑戰(zhàn)比賽的發(fā)展。該比賽旨在解決機器人學(xué)習(xí)中的三大痛點:任務(wù)缺乏標(biāo)準(zhǔn)化、任務(wù)體系不統(tǒng)一以及訓(xùn)練數(shù)據(jù)不足。今年10月,她正式發(fā)布了Behavior 1K挑戰(zhàn),這是一個包含1000個任務(wù)的綜合仿真基準(zhǔn)與訓(xùn)練環(huán)境,聚焦于日常家庭環(huán)境中的“長時序任務(wù)”。Behavior為全球研究者提供了開放源碼的訓(xùn)練與評測平臺,促進不同機構(gòu)在相同標(biāo)準(zhǔn)下進行比較和評估。
李飛飛近期表示,人類正處在一個文明性的轉(zhuǎn)折時刻,語言、空間、視覺、具身智能等多種AI技術(shù)正在融合,并開始真正改變?nèi)祟惿鐣K龔娬{(diào),只要始終將“以人為本”放在心中,這些技術(shù)就能成為造福人類的力量。









