自動駕駛技術發展至今,雖已取得顯著進步,但仍面臨諸多挑戰。其中,如何讓AI系統在復雜多變的真實環境中具備足夠的適應能力,成為行業關注的焦點。清華大學智能產業研究院的科研團隊聯合多所院校,針對這一問題展開深入研究,提出了一種創新性的解決方案,相關研究成果發表于arXiv預印本平臺。
當前,多數自動駕駛AI系統主要依賴模仿學習,就像學生僅通過背誦標準答案來學習數學,雖能掌握基礎技能,但缺乏解題思路。當遇到訓練數據中未出現的新情況,尤其是罕見且危險的長尾場景,如突然出現的行人或異常交通狀況時,這些系統往往表現不佳,難以做出合理決策。
為突破這一瓶頸,研究團隊開發了名為CoIRL - AD的新框架,即“協作競爭式模仿強化學習”。該框架為AI系統賦予了模仿與探索兩種能力,在其內部設置了兩個獨立的“駕駛員”。一個“駕駛員”專門模仿專家駕駛,確保基礎駕駛技能的可靠;另一個“駕駛員”則負責在安全范圍內探索不同駕駛策略,從成功與失敗中積累經驗。
這兩個“駕駛員”既合作又競爭。在合作方面,它們共同為AI系統的駕駛決策提供支持;在競爭方面,當兩者表現相近時和平共處,若一方明顯更優,較弱的一方會主動學習強者的經驗。這種動態的學習機制,使AI系統能夠不斷優化自身策略。
為進一步提升探索駕駛員的能力,研究團隊引入了一個虛擬的“想象世界”。這個高度逼真的駕駛模擬器,讓探索駕駛員無需實際道路行駛,就能預測不同行駛策略的后果,從而在真實世界數據基礎上,通過想象擴展經驗范圍。
在駕駛規劃方式上,研究團隊也有新發現。傳統方法多為“從近到遠”,即先確定眼前行駛路線,再考慮遠處目標。而他們發現“從遠到近”的反向規劃更符合人類駕駛思維,先明確目的地,再規劃具體轉彎和變道動作,使駕駛決策更合理。
在nuScenes和Navsim兩個權威自動駕駛數據集上的測試表明,CoIRL - AD系統優勢明顯。與傳統純模仿學習方法相比,其碰撞率降低了18%,在處理罕見和困難場景時表現更出色,跨城市部署時的適應能力也更強。研究團隊還專門構建了包含易預測錯誤情況和易引發碰撞危險場景的測試環境,CoIRL - AD系統在這些困難場景中均展現出更強的應對能力。
該研究的技術創新不僅體現在雙重學習架構,還包含諸多精巧細節。例如,為使探索駕駛員產生的行駛軌跡更平滑合理,研究團隊采用“步驟感知”探索機制,每次探索僅一個行駛步驟隨機,其余采用最優策略,既保證探索多樣性,又維持軌跡連貫性。
在訓練過程中,研究團隊觀察到有趣現象。訓練初期,模仿駕駛員因有專家示范可學習,表現更好;隨著訓練深入,探索駕駛員通過試錯積累豐富經驗,逐漸展現出優勢,這體現了學習過程的自然規律。
研究團隊還通過消融實驗驗證了框架各組件的必要性。他們發現,簡單將模仿學習和強化學習損失函數相加,會因梯度沖突導致訓練不穩定,只有通過雙策略架構和競爭機制,才能實現兩種學習方式有效結合。
值得一提的是,CoIRL - AD系統在推理階段不會增加額外計算開銷。兩個“駕駛員”在訓練完成后整合為統一駕駛策略,實際部署時運行效率與傳統方法相當。
研究團隊在論文中也客觀討論了當前方法的局限。由于使用的獎勵函數相對簡單,僅考慮模仿獎勵和碰撞獎勵,系統在某些復雜場景表現仍有提升空間。基于世界模型的仿真雖能提供額外訓練數據,但與真實世界仍存在差距。
盡管存在這些局限,CoIRL - AD框架已展現出巨大潛力。它不僅在技術層面實現創新突破,更為自動駕駛AI系統學習方式提供了新方向,這種結合模仿與探索的學習范式,有望成為未來自動駕駛技術發展的重要趨勢。










