AI領域迎來突破性進展——“AI教母”李飛飛創辦的World Labs公司,近日在社交平臺X上宣布推出名為RTFM(Real-Time frame Model)的實時幀模型。該模型僅需單塊英偉達H100 GPU,即可實現與用戶實時交互的同時,完成高保真3D世界的動態渲染。
傳統世界模型發展面臨的核心瓶頸在于算力需求。據World Labs披露,現有生成式世界模型的計算復雜度遠超大語言模型。以60幀/秒生成4K交互視頻流為例,每秒需處理超10萬個token,持續一小時則需管理超1億token的上下文。作為對比,OpenAI的Sora雖具備部分世界建模能力,但據Factorial基金會估算,其峰值運行需72萬塊H100 GPU集群支持。
RTFM的突破性在于將硬件需求壓縮至單GPU級別。該模型通過四項核心技術實現效率躍升:其一,采用優化的神經網絡架構與推理技術,在資源受限條件下維持輸出質量;其二,引入自回歸擴散Transformer架構,該架構在視頻生成領域表現卓越,可高效預測幀序列;其三,部署空間記憶技術,通過三維姿態建模保持大場景幾何一致性;其四,創新上下文切換機制,實現歷史幀數據復用,避免重復計算。
技術團隊特別強調,RTFM的持久化建模能力是其核心優勢。系統構建的3D世界具有時間連續性,場景元素不會因視角切換而消失,且能精準呈現反射、光滑表面、陰影等復雜視覺效果。更值得關注的是,該架構采用端到端學習范式,無需依賴顯式3D建模,直接從海量視頻數據中自主學習空間規律。
與仿真系統及傳統視頻生成模型相比,RTFM展現出本質差異。仿真依賴人工預設環境規則,缺乏自適應能力;視頻生成模型僅能單向輸出內容,無法理解環境動態。而世界模型通過AI與環境的交互,持續學習環境規律,既能生成逼真場景,又可為智能體提供決策依據。這種特性使其在媒體制作、機器人訓練等領域具有變革潛力。
研發團隊在博客中指出,AI發展應避免過度依賴人類知識注入。歷史經驗表明,短期有效的知識嵌入會阻礙系統長期進化。隨著計算能力提升,基于自主學習與搜索的技術路線將展現更強生命力。RTFM的架構設計正體現這一理念,其可擴展性確保模型性能可隨算力增長持續提升。











