在3D視覺領域,以VGGT、DUSt3R為代表的3D基礎模型在靜態場景重建任務中表現卓越,然而當面對包含行人、車輛等移動物體的動態4D場景時,這些模型的性能卻大打折扣。動態物體的運動不僅干擾背景幾何建模,還會引發嚴重的相機位姿漂移問題。針對這一挑戰,來自香港科技大學(廣州)與地平線的研究團隊提出了一種創新性的解決方案——VGGT4D,該方案無需額外訓練,就能讓3D基礎模型具備處理動態4D場景的能力。
現有的提升3D模型處理4D場景能力的方法,大多面臨計算或訓練成本高昂的問題。有的依賴繁重的測試時優化,有的需要在大規模4D數據集上進行微調;還有些方法依賴外部先驗,引入光流、深度估計或語義分割等額外模塊,增加了系統的復雜性。而VGGT4D的核心設想是,在不進行額外訓練的前提下,直接從預訓練的3D基礎模型中挖掘出4D感知能力。
研究人員深入分析了VGGT的內部機制,通過可視化其注意力機制,發現了一個關鍵現象:VGGT不同網絡層對動態區域的響應模式截然不同。淺層網絡傾向于捕捉語義上顯著的動態物體,深層網絡則逐漸抑制幾何不一致的區域。這表明,盡管VGGT是基于靜態假設訓練的,但其內部實際上已經隱式編碼了豐富的動態線索。不過,直接利用標準的注意力圖效果并不理想,因為它混合了紋理、語義和運動信息,導致信噪比低,使得基于Epipolar假設的方法在VGGT架構上失效。
為了從靜態模型中提取運動線索,VGGT4D提出了一套無需訓練的注意力特征挖掘與掩膜精修機制。研究團隊首先分析了標準注意力圖的局限性,由于Query和Key向量來自異構的投影頭,其特征分布存在天然的分布間隙,導致Cross-Attention主要響應語義對齊,運動引起的微小特征擾動容易被掩蓋。為解決此問題,VGGT4D引入自相似性Gram矩陣替代標準注意力圖。通過在同構潛在分布內計算相似度,運動引起的方差成為主導信號。模型通過在時間窗口內聚合不同層級的統計矩(均值與方差),構建了動態顯著性場。
為解決Attention Map分辨率不足導致的邊界模糊問題,VGGT4D引入了投影梯度感知精修。定義3D點在視點下的幾何投影殘差,該殘差關于3D坐標的梯度包含極強的邊界信息。由于該梯度依賴于投影雅可比矩陣和深度圖的空間梯度,在動態物體邊緣處會呈現顯著的高頻響應。聚合后的梯度能量函數結合光度殘差項,實現了對動態掩膜的亞像素級銳化。
在推理階段,直接的全層掩膜會將模型推向分布外狀態,導致性能下降。VGGT4D提出分布內早期掩膜策略,僅在淺層抑制動態Token的Key向量。這種設計既在早期切斷了動態信息對深層幾何推理的影響,又保證了深層Transformer Block依然在其預訓練的特征流形上運行,從而保證了位姿估計的魯棒性。
研究團隊針對動態物體分割、相機位姿估計和4D點云重建三大核心任務,在六個基準數據集上對VGGT4D進行了詳盡的定量和定性評估。在動態物體分割性能評估中,定量分析顯示,VGGT4D顯著優于其他所有變體,在DAVIS-2016和DAVIS-2017數據集上均達到最優性能。即使沒有經過任何4D特定的訓練,僅基于預訓練的VGGT模型就能取得優異結果。定性分析也表明,VGGT4D生成的掩碼更加準確,邊界更加清晰,有力地驗證了VGGT的Gram相似度統計信息中嵌入了豐富的、可提取的運動線索。
在相機位姿估計的魯棒性驗證中,原始VGGT本身就是一個強大的基線,優于許多專門的4D重建方法,表明其預訓練隱式地使其對動態物體具有一定魯棒性,但這種魯棒性并不完美。VGGT4D在所有數據集上均持續改進了這一基線。在極具挑戰性的長序列Point Odyssey基準測試中,VGGT4D在所有指標上均取得最佳結果,同時保持高度效率,許多其他4D方法因內存不足錯誤甚至無法在該序列上運行。這表明VGGT4D的顯式、無需訓練的動態 - 靜態分離方法成功識別并消除了由運動引起的殘余位姿不一致性,實現了更穩定、更準確的相機軌跡,尤其在長且復雜的序列上。
在4D點云重建質量實驗中,在DyCheck數據集上的評估顯示,VGGT4D在所有重建指標(準確度、完整度和距離)上均取得最佳性能。與VGGT基線相比,中位準確度誤差和平均距離均有顯著降低,證明了該方法不僅實現了精準的動靜分離,更能實質性提升幾何重建質量。
VGGT4D提出了一種無需訓練的新范式,成功將3D基礎模型的能力擴展至4D動態場景。通過合理挖掘模型內部的Gram相似度統計特性,有效解耦了動態與靜態信息,為低成本的4D重建提供了新思路,也展示了基礎模型在零樣本遷移任務中的潛力。











