人工智能領域正經歷一場新的技術躍遷——從基于文本的大語言模型轉向能夠理解并模擬物理世界的“世界模型”。這場變革吸引了谷歌、meta等科技巨頭競相布局,而馬斯克旗下的xAI也悄然加入戰局,試圖在下一代AI技術中占據先機。
與傳統依賴文字訓練的模型不同,世界模型通過分析海量視頻和機器人操作數據,試圖掌握真實世界的物理規律。例如,谷歌研究人員在最新論文中提出,視頻模型可能像語言模型一樣,通過“下一幀預測”任務,自發解鎖物體分割、工具使用等未經專門訓練的能力。這種“涌現能力”被類比為語言模型中的“思維鏈”,研究人員稱之為“幀鏈”,暗示視頻模型可能通過時空推理實現更復雜的智能。
xAI的入局策略頗具針對性。據知情人士透露,該公司已從英偉達挖角兩位AI專家Zeeshan Patel和Ethan He,這兩人在世界模型領域經驗豐富。英偉達憑借Omniverse平臺在該領域處于領先地位,而xAI的招聘動作顯示其正加速技術積累。目前,xAI的“omni團隊”正高薪招募圖像和視頻生成技術人員,薪資范圍高達18萬至44萬美元,旨在“創造超越文本的AI體驗”。
游戲領域成為xAI的首個商業化目標。公司計劃利用世界模型生成可交互的3D游戲環境,并已啟動相關招聘——以時薪45至100美元招募“視頻游戲導師”,訓練其AI模型Grok開發游戲。馬斯克在社交平臺確認,xAI將在“明年年底前發布一款AI生成游戲”,并暗示這些技術未來可能應用于機器人系統。這一路徑不僅明確了商業化方向,也凸顯了世界模型在虛擬與現實交互中的潛力。
行業對視頻模型的期待正達到新高度。谷歌近期論文指出,其視頻模型Veo 3已展現出與大語言模型相似的“涌現能力”,例如通過“下一幀預測”任務,零樣本實現邊緣檢測和模擬工具使用。研究人員Jack Clark比喻,這如同自然語言處理從特定任務模型轉向通用模型,機器視覺領域可能迎來“視覺領域的GPT-3時刻”。若此預判成立,更智能的視頻模型或將催生能力極強的機器人“代理”。
然而,技術突破背后是巨大的挑戰。訓練世界模型需要處理海量真實世界數據,成本高昂且技術難度極大。例如,模擬物理交互的準確性、數據標注的復雜性,以及模型對動態環境的適應能力,均是當前亟待解決的問題。業界對AI的作用也存在理性反思。游戲開發商Larian Studios的發行主管Michael Douse指出,AI無法解決游戲行業的“核心問題”——領導力和愿景。他強調,行業需要的是對世界的多樣化表達,而非“數學方式生產的游戲循環”。
盡管如此,xAI的入局仍為這場競賽注入新動力。英偉達上月曾預測,世界模型的潛在市場規模可能接近全球經濟總量。隨著AI焦點從數字信息處理轉向物理現實模擬,視覺模型能否復刻大語言模型的輝煌,不僅將決定下一代AI霸主的歸屬,更可能重塑人類與數字及物理世界的交互方式。這場變革中,技術、商業與創意的碰撞,正推動AI向更復雜的維度演進。











