自動(dòng)駕駛仿真領(lǐng)域迎來(lái)重大突破——趙昊團(tuán)隊(duì)研發(fā)的DGGT框架,在性能上較現(xiàn)有最優(yōu)方案(SOTA)提升達(dá)50%,為動(dòng)態(tài)交通場(chǎng)景下的自動(dòng)駕駛訓(xùn)練開(kāi)辟了新路徑。這一成果不僅解決了傳統(tǒng)仿真技術(shù)的核心痛點(diǎn),更通過(guò)端到端場(chǎng)景重建能力,重新定義了自動(dòng)駕駛系統(tǒng)的“數(shù)據(jù)工廠”運(yùn)作模式。
傳統(tǒng)自動(dòng)駕駛仿真技術(shù)長(zhǎng)期受制于三大瓶頸:場(chǎng)景優(yōu)化依賴人工逐個(gè)調(diào)試,如同為每個(gè)路口單獨(dú)設(shè)計(jì)交通規(guī)則;相機(jī)標(biāo)定需精確輸入?yún)?shù),稍有偏差便導(dǎo)致數(shù)據(jù)失真;短幀窗口限制難以捕捉車輛完整運(yùn)動(dòng)軌跡,導(dǎo)致時(shí)序信息斷裂。DGGT框架通過(guò)技術(shù)創(chuàng)新,系統(tǒng)性破解了這些難題。其核心優(yōu)勢(shì)在于采用多頭聯(lián)合預(yù)測(cè)結(jié)構(gòu),無(wú)需提前標(biāo)定相機(jī)參數(shù),而是將位姿預(yù)測(cè)作為模型輸出,同時(shí)支持任意長(zhǎng)度圖像序列的實(shí)時(shí)處理,實(shí)現(xiàn)了從“場(chǎng)景適配模型”到“模型適配場(chǎng)景”的根本性轉(zhuǎn)變。
在Waymo開(kāi)放數(shù)據(jù)集測(cè)試中,DGGT展現(xiàn)出顯著優(yōu)勢(shì):重建精度達(dá)到27.41PSNR,單幀推理時(shí)間僅需0.39秒(3視角20幀配置),較同類方案速度提升數(shù)倍且畫面保真度更高。更令人矚目的是其跨數(shù)據(jù)集泛化能力——在Waymo訓(xùn)練的模型直接應(yīng)用于nuScenes和Argoverse2數(shù)據(jù)集時(shí),關(guān)鍵指標(biāo)LPIPS分別下降61.4%和52.4%,證明模型具備強(qiáng)大的環(huán)境適應(yīng)力。這種“舉一反三”的能力,源于其獨(dú)特的4D場(chǎng)景同步重建技術(shù):通過(guò)ViT編碼器融合DINO先驗(yàn)知識(shí),模型可同時(shí)輸出相機(jī)位姿、深度信息、動(dòng)態(tài)實(shí)例及場(chǎng)景表示,將圖像直接映射為可編輯的4D空間。
技術(shù)突破帶來(lái)的產(chǎn)業(yè)價(jià)值正在顯現(xiàn)。DGGT框架將數(shù)據(jù)生成成本降低60%以上——傳統(tǒng)方案需要高精度標(biāo)定設(shè)備與固定路線采集,而新框架僅需普通攝像頭即可完成場(chǎng)景重建。其0.4秒完成4D重建的速度,使數(shù)據(jù)生成周期縮短80%,特別在邊緣案例構(gòu)建方面表現(xiàn)突出:研究人員可直接在Gaussian層面插入橫穿馬路的行人或突然變道的車輛,快速生成極端場(chǎng)景數(shù)據(jù)。這種能力對(duì)提升自動(dòng)駕駛安全性至關(guān)重要,據(jù)統(tǒng)計(jì),覆蓋90%以上邊緣案例的系統(tǒng),實(shí)車測(cè)試事故率可下降73%。
該成果的研發(fā)團(tuán)隊(duì)來(lái)自清華大學(xué)智能產(chǎn)業(yè)研究院,負(fù)責(zé)人趙昊教授長(zhǎng)期深耕三維場(chǎng)景理解領(lǐng)域,其團(tuán)隊(duì)此前已在動(dòng)態(tài)交通仿真方面取得多項(xiàng)突破。據(jù)悉,DGGT框架將于2025年12月12-13日在深圳舉行的GAIR大會(huì)上亮相,趙昊教授將作為世界模型分論壇主席,分享該技術(shù)在構(gòu)建虛擬測(cè)試環(huán)境中的應(yīng)用進(jìn)展。這場(chǎng)聚焦AI產(chǎn)業(yè)落地的盛會(huì),或?qū)⒁?jiàn)證自動(dòng)駕駛仿真技術(shù)從實(shí)驗(yàn)室走向量產(chǎn)線的關(guān)鍵一步。










