在計算機視覺領域,一場技術革新風暴正悄然掀起。近期落幕的國際計算機視覺大會(ICCV)上,特斯拉首次向外界深度揭秘其FSD(完全自動駕駛)系統的核心架構,這一舉動引發行業廣泛關注,也預示著自動駕駛技術邁向全新發展階段。
特斯拉自動駕駛副總裁阿肖克·埃魯斯瓦米在大會上介紹,FSD系統依托一個大型神經網絡,將攝像頭視頻、地圖、車速乃至音頻等多模態信息一股腦輸入其中,網絡直接輸出方向盤操作和油門控制指令。這意味著,過去感知、預測、決策、控制等獨立環節,如今在一個網絡內融合,通過反向傳播實現整體優化。這種架構與當下熱議的“世界模型”概念高度契合。
所謂“世界模型”,可理解為AI構建的“虛擬小宇宙”。它能將外界信息壓縮成內部版本,并在此空間內模擬未來場景。例如,它能預測踩油門后前車的反應——是繼續前行還是緊急剎車。這種能力如同人類大腦的“預演”,是實現智能決策的關鍵。特斯拉的“神經世界模擬器”正是此類模型的典型代表,它不僅能生成未來畫面,還能根據不同操作預測多種結果。
這一技術的優勢在于,它不僅能提供“未來可能堵車”的籠統判斷,更能細化到“變道是否更快或更危險”的具體分析。通過在虛擬環境中反復測試新策略,甚至模擬極端場景,系統迭代速度大幅提升。例如,系統可在虛擬世界中嘗試不同變道時機,評估風險與收益,從而優化實際駕駛決策。
圍繞自動駕駛技術路線,行業已形成兩大陣營。以特斯拉、蔚來、華為為代表的企業主張“世界模型”路線,認為AI需真正理解物理世界,通過內部模擬實現精準決策;而理想、小米等企業則傾向“VLA(視覺-語言-行動)模型”,借助大語言模型的推理能力,將視覺信息轉化為文字描述,再通過語言邏輯制定策略。
兩條路線各有優勢。世界模型更貼近物理現實,擅長處理復雜動態環境,是高級別自動駕駛的核心技術;VLA模型則憑借語言模型的常識推理能力,在應對長尾場景(如罕見交通狀況)時更具潛力。例如,面對道路施工標志模糊的情況,VLA模型可通過語言邏輯推斷施工類型,而世界模型則可能更依賴對物理環境的直接感知。
中國企業在世界模型領域已展現強勁實力。蔚來推出的NWM世界模型,可在100毫秒內生成200多個應對預案,并篩選最優方案;華為的WEWA架構則強調從傳感器信號到控制指令的直接映射,跳過語言轉換環節,追求極致安全;商湯的“開悟”模型則聚焦仿真領域,通過AI生成海量高逼真訓練數據,降低車企研發成本。
這場技術競賽背后,是自動駕駛從輔助功能向完全自主的跨越。無論是特斯拉的“閉環神經宇宙”,還是中國企業的多樣化探索,均指向同一目標:讓汽車成為具備感知、思考與決策能力的移動智能體。世界模型作為關鍵技術,正成為企業爭奪L4級無人駕駛制高點的核心籌碼。












