近年來,全球自動駕駛產(chǎn)業(yè)進入高速發(fā)展期。谷歌旗下Waymo在美國多個城市加速部署無人駕駛出租車,運營規(guī)模持續(xù)擴大;國內(nèi)市場中,百度Apollo也交出亮眼成績單,推動無人車從實驗室走向商業(yè)化。
盡管無人車在街頭愈發(fā)常見,但行業(yè)技術(shù)路線之爭卻從未停歇。從傳感器選擇到算法架構(gòu),再到AI決策模式,不同流派的分歧正深刻影響著自動駕駛的未來走向。截至2025年5月,Waymo在美國舊金山、洛杉磯等城市已投入1500輛自動駕駛出租車,每周付費行程超25萬次;百度Apollo則在全球部署超1000輛無人車,累計完成1100余萬次出行訂單,安全行駛里程突破1.7億公里。然而,這些數(shù)據(jù)背后,技術(shù)爭議仍在持續(xù)。
在感知層面,行業(yè)分為“純視覺”與“多傳感器融合”兩大陣營。特斯拉主張“純視覺”路線,認(rèn)為8個攝像頭即可模擬人類視野,通過算法從2D圖像還原3D環(huán)境,成本低且易于量產(chǎn)。但這一方案在逆光、雨霧等極端天氣下表現(xiàn)欠佳。相比之下,Waymo等企業(yè)堅持“多傳感器融合”,通過激光雷達(dá)、攝像頭等構(gòu)建感知網(wǎng)絡(luò),盡管早期激光雷達(dá)成本高達(dá)7.5萬美元,但其3D建模精度能清晰捕捉行人動作、路面障礙等細(xì)節(jié),成為高級別自動駕駛的核心依賴。
傳感器內(nèi)部的爭論同樣激烈。激光雷達(dá)雖精度卓越,但雨雪天氣下感知能力大幅下降;4D毫米波雷達(dá)雖不受天氣影響,但分辨率低,多作為輔助傳感器。目前,豪華車與無人出租車傾向于多裝激光雷達(dá),經(jīng)濟型車輛則采用“激光雷達(dá)+攝像頭”的組合方案,平衡成本與性能。
算法架構(gòu)層面,“模塊化”與“端到端”模型的對立尤為顯著。傳統(tǒng)模塊化設(shè)計將駕駛?cè)蝿?wù)拆分為感知、預(yù)測、規(guī)劃、控制等環(huán)節(jié),雖易于調(diào)試,但信息傳遞中的誤差累積導(dǎo)致整體性能受限。特斯拉FSDV12引入的端到端模型則模仿人類學(xué)習(xí)方式,通過海量真實行車數(shù)據(jù)直接建立路況與駕駛動作的映射,理論上能逼近人類駕駛流暢度。然而,其“黑箱”特性導(dǎo)致事故原因難以追溯,成為安全監(jiān)管的痛點。為此,行業(yè)提出“顯式端到端”方案,保留部分中間數(shù)據(jù),試圖在性能與可解釋性間尋找平衡。
在AI決策層面,VLM(視覺語言模型)與VLA(視覺語言動作模型)的分歧進一步凸顯。Waymo等主流企業(yè)采用VLM,讓AI負(fù)責(zé)環(huán)境理解與推理,最終決策權(quán)交由傳統(tǒng)模塊,確保過程可控。例如,當(dāng)識別到“被風(fēng)吹的塑料袋”時,規(guī)劃模塊會決定“緩剎通過”,責(zé)任劃分清晰。而特斯拉、吉利等企業(yè)探索的VLA則試圖讓AI直接學(xué)習(xí)所有駕駛技巧,通過海量數(shù)據(jù)訓(xùn)練實現(xiàn)“端到端”決策。但這一方案面臨更嚴(yán)重的“黑箱”問題,且訓(xùn)練數(shù)據(jù)成本高昂——需同步8個攝像頭的視頻與駕駛操作,而VLM可先用互聯(lián)網(wǎng)圖像-文本數(shù)據(jù)預(yù)訓(xùn)練,再通過行車數(shù)據(jù)微調(diào),成本大幅降低。
盡管流派分歧顯著,但技術(shù)融合已成為趨勢。激光雷達(dá)與視覺傳感器正走向多模態(tài)感知,模塊化算法吸收端到端優(yōu)勢,大模型則為系統(tǒng)注入更高智慧。那些曾被視為無解的技術(shù)難題,正通過爭議與碰撞推動行業(yè)向前。無論路線如何選擇,最終目標(biāo)始終是“安全且經(jīng)濟”——唯有讓技術(shù)真正服務(wù)于大眾,自動駕駛才能從實驗室走向千家萬戶。