在智能駕駛技術快速迭代的背景下,小米近日通過其最新發布的Xiaomi HAD增強版,向行業展示了在輔助駕駛領域的突破性進展。這款系統不僅實現了從傳統端到端模仿學習向“模仿學習+強化學習”模式的范式升級,更通過引入VLA(視覺-語言-行為模型)技術,為解決長尾場景下的決策難題提供了新思路。
據小米智能駕駛VLA技術負責人陳龍介紹,此次增強版的核心突破在于學習機制的迭代。傳統端到端系統依賴千萬級駕駛視頻數據進行模仿訓練,而新版本通過世界模型構建的虛擬環境,讓模型在反復試錯中掌握最優駕駛策略。這種“正向獎勵+負向懲罰”的機制,使系統在面對突發加塞、施工占道等極端場景時,能更貼合人類防御性駕駛的邏輯,決策可靠性與安全性顯著提升。
強化學習的應用并非孤立存在。小米同步推進的世界模型技術,通過“道路環境數據+語言描述”的雙輸入模式,生成適配中國復雜路況的虛擬訓練場景。例如,系統能通過語言描述理解不同城市的交通標識差異,進而在虛擬環境中模擬北京胡同的窄路會車、上海高架的匝道匯流等特色場景。這種“數據驅動+語言增強”的方案,有效解決了仿真環境與真實道路的差距問題,為強化學習提供了更貼近實際的訓練場。
VLA技術的引入,則直指端到端模型的“黑盒”痛點。陳龍以“寶寶學說話”類比:傳統端到端如同幼兒模仿發音卻不知含義,而VLA通過語言模態的加持,使系統具備“讀書認字”的推理能力。當遇到未在訓練數據中出現的場景時,VLA可借助互聯網通識數據(如交通規則、物理常識)進行邏輯推導,例如通過識別“圓形紅底標識”判斷禁止通行,或根據“右轉必停”的地方規則調整動作。這種“理解式決策”能力,被認為是通往L3/L4級自動駕駛的必要條件。
在技術路徑選擇上,小米拒絕了開源模型的快速移植方案,轉而投入資源自研具身基座模型。該模型從大語言模型(LLM)階段即開始數據篩選,融入駕駛場景與機器人任務的專項訓練,強化3D空間感知與推理能力。陳龍透露,這種“通用能力為基礎、駕駛場景為重點”的設計,使模型既能適配車輛駕駛,也可擴展至機器人、家居等跨場景應用,形成“人車家全生態”的技術協同優勢。
針對VLA可能帶來的時延問題,小米通過算力強化與模型優化雙管齊下:一方面升級硬件基礎設施保障推理速度,另一方面在語言模態輸出端精簡token,移除口語化表述,僅保留關鍵決策信息。這種“效率優先”的調整,使系統在增加認知能力的同時,仍能保持流暢的交互體驗。
技術落地的優先級排序中,小米明確將算法置于首位。陳龍引用特斯拉前AI負責人觀點指出,當前輔助駕駛的核心矛盾仍在軟件層面,硬件與算力僅作為彌補算法短板的補充手段。例如,當算法無法通過純視覺方案實現高精度感知時,可增加激光雷達提升可靠性;當VLA推理需要更復雜計算時,再通過算力升級保障響應速度。這種“軟件定義硬件”的思路,體現了小米對技術本質的深刻理解。
作為較早參與端到端與VLA研發的科學家,陳龍的職業軌跡折射出中國智能駕駛領域的人才聚集趨勢。這位35歲的前英國Wayve核心成員,在對比國內外駕駛場景后發現,國內道路中電瓶車橫穿、突發加塞等不可預測場景更多,對系統靈活性與安全性的要求更高。這種本土化需求,加上小米“人車家全生態”的愿景吸引,最終促成其回國加入小米。他透露,小米1用戶身份與雷軍親自溝通的經歷,強化了自身對品牌價值觀的認同——這種“做感動人心的好產品”的理念,與VLA技術“讓AI落地物理世界”的追求高度契合。
隨著Xiaomi HAD增強版隨HyperOS 1.11系列推送至用戶,小米的智能駕駛技術進入全新階段。從端到端到強化學習,從世界模型到VLA,這家以手機起家的科技企業,正通過持續的技術深耕,在智能駕駛賽道上構建差異化競爭力。而陳龍帶領的團隊,能否憑借“難但正確”的技術路線,在L3/L4級自動駕駛的終極目標上實現突破,將成為行業后續關注的焦點。









