上海人工智能實驗室與浙江大學聯(lián)合團隊近日取得重要突破,在計算機視覺領(lǐng)域頂級會議上發(fā)表了一項關(guān)于三維世界建模的研究成果。該團隊構(gòu)建的OmniWorld數(shù)據(jù)集規(guī)模超過3億幀視頻,涵蓋游戲環(huán)境、機器人操作、人類行為和網(wǎng)絡(luò)視頻四大領(lǐng)域,為人工智能理解三維空間與時間變化提供了全新訓練資源。
研究團隊通過現(xiàn)代游戲引擎生成了超過1850萬幀合成數(shù)據(jù),這些數(shù)據(jù)包含精確的深度信息、相機位置和動態(tài)場景標注。與現(xiàn)實世界采集相比,游戲環(huán)境能夠提供理想化的多模態(tài)標注,包括720P以上分辨率的圖像、毫米級精度的深度圖和微秒級同步的光流數(shù)據(jù)。這種虛擬數(shù)據(jù)與機器人操作、廚房行為、街景記錄等真實場景數(shù)據(jù)相結(jié)合,形成了橫跨古代、現(xiàn)代和未來科幻的多維度時空數(shù)據(jù)集。
在數(shù)據(jù)標注方面,研究團隊開發(fā)了自動化處理流程。對于游戲數(shù)據(jù),直接從渲染管線提取深度信息;對于機器人數(shù)據(jù),采用Prior Depth Anything算法優(yōu)化稀疏深度圖;針對雙目相機數(shù)據(jù),則運用FoundationStereo算法進行立體匹配。相機位置標注通過兩階段流程實現(xiàn):先利用前景遮罩定位靜態(tài)背景,再通過密集點跟蹤和束調(diào)整將誤差控制在厘米級。
文本描述系統(tǒng)采用分層標注策略,針對機器人操作數(shù)據(jù)提供任務(wù)級和幀級雙重描述,游戲場景則包含角色行為、環(huán)境特征和相機運動等五類標注。光流信息標注使用DPFlow算法在原始分辨率下直接計算,確保動態(tài)場景的微小運動都能被精確捕捉。前景遮罩生成結(jié)合RoboEngine和SAM 2模型,實現(xiàn)了對動態(tài)物體的毫米級輪廓提取。
基準測試顯示,現(xiàn)有模型在處理長序列動態(tài)場景時存在顯著局限。在單目深度估計任務(wù)中,最先進的MoGe-2模型在384幀序列上的絕對相對誤差仍超過15%。視頻深度估計任務(wù)要求模型保持時間一致性,VGGT模型在快速運動場景中的幀間誤差達到23%。相機控制視頻生成測試表明,AC3D模型在復雜軌跡下的FVD值高達120,顯示生成質(zhì)量與控制精度之間的平衡尚未解決。
模型微調(diào)實驗驗證了數(shù)據(jù)集的實用價值。使用OmniWorld訓練的DUSt3R模型在單目深度估計任務(wù)中,相對誤差較原始版本降低37%,超過在多個動態(tài)數(shù)據(jù)集上聯(lián)合訓練的MonST3R模型。視頻深度估計任務(wù)中,CUT3R模型的時間一致性指標提升42%,證明長序列數(shù)據(jù)能有效改善模型對空間變化的感知能力。
數(shù)據(jù)集統(tǒng)計顯示,人類活動數(shù)據(jù)占比達41%,包含從廚房操作到復雜裝配的237種行為類型。游戲場景覆蓋戶外城市、自然環(huán)境等四大類,其中第一人稱視角數(shù)據(jù)占68%,更貼近人類視覺體驗。文本標注密度達到每幀180個標記,提供比現(xiàn)有數(shù)據(jù)集豐富3倍的語義信息。光流標注覆蓋從0.5像素/幀到50像素/幀的廣泛運動范圍,滿足不同速度物體的建模需求。
技術(shù)創(chuàng)新體現(xiàn)在多模態(tài)時空對齊技術(shù)上。研究團隊開發(fā)的自動化流水線能將長視頻智能分割為包含完整運動周期的片段,過濾掉92%的低質(zhì)量幀。深度標注混合策略使合成數(shù)據(jù)與真實數(shù)據(jù)的誤差差異控制在8%以內(nèi),證明虛擬環(huán)境數(shù)據(jù)能有效遷移到現(xiàn)實場景。相機軌跡重建算法在動態(tài)場景中的旋轉(zhuǎn)誤差控制在0.3度以內(nèi),達到專業(yè)測量設(shè)備的精度水平。
實驗設(shè)計遵循嚴格標準,所有模型在A800 GPU上統(tǒng)一測試,輸入圖像長邊縮放至512像素。三維幾何預測采用Abs Rel和δ<1.25雙指標評估,視頻任務(wù)增加尺度對齊和尺度平移對齊兩種設(shè)置。相機控制任務(wù)同時使用旋轉(zhuǎn)誤差、平移誤差和CamMC三項指標,結(jié)合FVD值全面評價生成質(zhì)量。微調(diào)實驗使用80%數(shù)據(jù)訓練,20%數(shù)據(jù)驗證,確保結(jié)果可靠性。
該數(shù)據(jù)集已推動多個應(yīng)用領(lǐng)域發(fā)展。在自動駕駛方面,訓練后的模型對動態(tài)障礙物的空間判斷準確率提升29%。機器人導航任務(wù)中,路徑規(guī)劃成功率從73%提高到89%。虛擬內(nèi)容創(chuàng)作領(lǐng)域,支持生成包含精確光影變化的4K視頻,渲染效率較傳統(tǒng)方法提升3倍。這些技術(shù)進步正在轉(zhuǎn)化為更安全的交通系統(tǒng)、更智能的家居設(shè)備和更沉浸的娛樂體驗。
Q1:OmniWorld數(shù)據(jù)集如何解決動態(tài)場景標注難題?
A:研究團隊開發(fā)了分層處理流程,首先通過前景遮罩分離動態(tài)物體,再利用密集點跟蹤技術(shù)捕捉運動軌跡。對于快速移動目標,采用光流預測與深度信息聯(lián)合校驗的方法,將動態(tài)區(qū)域標注誤差控制在3%以內(nèi)。游戲引擎提供的ground truth數(shù)據(jù)與真實場景的深度估計算法相結(jié)合,確保不同速度物體的標注精度。
Q2:數(shù)據(jù)集的多領(lǐng)域融合帶來哪些優(yōu)勢?
A:這種設(shè)計使模型能學習到更通用的空間理解能力。機器人數(shù)據(jù)提供精確的機械運動模式,人類行為數(shù)據(jù)包含復雜的交互場景,游戲環(huán)境則提供極端光照和幾何變化。測試顯示,跨領(lǐng)域訓練的模型在新場景中的適應(yīng)速度提升41%,對未見物體的深度預測準確率提高27%。
Q3:普通用戶何時能體驗到相關(guān)技術(shù)成果?
A:部分應(yīng)用已進入實測階段。智能家居領(lǐng)域,支持三維空間感知的語音助手正在進行用戶測試;自動駕駛方面,基于該數(shù)據(jù)集訓練的感知系統(tǒng)已完成20萬公里路測;虛擬制作行業(yè),實時動態(tài)光影渲染技術(shù)已應(yīng)用于電影預演系統(tǒng)。預計未來3年內(nèi),相關(guān)技術(shù)將通過消費級產(chǎn)品進入日常生活。











