12月10日消息,在今年8月份的世界機器人大會(WRC)上,宇樹科技創始人王興興質疑VLA(視覺語言動作模型)的一番言論,引起業界熱議。
王興興稱,對于當前機器人大火的VLA路線,他持有一定的懷疑態度,并直言稱“這是一個相對傻瓜式的架構”。
原因是當VLA模型與真實世界交互的時候,背后的數據質量、數量,并不太夠用。
而今日,理想汽車自動駕駛研發高級副總裁@ 郎咸朋在微博發長文,回應了此事。
郎咸朋表示,當時沒有提出我的觀點,一是理想VLA司機大模型還沒正式發布,空口無憑;二是我們對具身機器人行業,還處于密切關注階段。
我跟王興興觀點最不一樣的地方在于,他認為模型架構更重要,但我認為模型的關鍵是要與整個具身智能系統適配,在此基礎上,數據是起決定意義的。
從今年9月VLA正式發布,到12月6日OTA 8.1的推送,經過兩個月多的“實踐出真知”后,我有兩點心得:第一,VLA就是自動駕駛最好的模型方案,第二,具身智能最終拼的是整體的系統能力。
郎咸朋稱,理想的VLA本質上就是生成式模型,是在用 GPT 的方式做自動駕駛,只不過生成的Token不是文本,而是軌跡和控制信號。
從目前用戶使用的反饋看,在某些場景下理想的VLA已經具備了對物理世界的認知涌現。具體表現是用戶會越來越多的發現之前端到端沒有的擬人行為。
并且,世界模型更適合做“考場”而不是“考生”,在自動駕駛領域,脫離了海量真實數據談模型架構都是空中樓閣,我們之所以堅持 VLA,是因為我們擁有數百萬輛車構建的數據閉環,這讓我們能在當前算力下,把駕駛水平做到接近人類。
針對具身智能方面,要想做好自動駕駛,必須先把自動駕駛當作完整的具身智能系統對待,每一部分在研發過程中要相互配合才能將價值發揮出來。理想的自動駕駛團隊與基座模型、芯片、底盤團隊協同打造了整個的自動駕駛系統。
同時,模型的關鍵是要與整個具身智能系統適配,在此基礎上,數據是起決定意義的。在機器人領域獲取數據相對困難,但在自動駕駛領域,特別是建立起數據閉環能力的車企來說并不是大問題。
理想不僅可以從過去幾年積累的10幾億公里的存量數據里進行挖掘和篩選,更可以通過150萬車主的日常使用源源不斷的獲取新的數據。
李想前兩天明確提到,未來五到十年,具身機器人核心將有兩種形態:汽車類的具身機器人、人形類的具身機器人。
理想的VLA不僅服務于現在的理想各類汽車產品形態,也將服務于未來的汽車類具身機器人。(若風)











