在人工智能領域,視頻理解一直是極具挑戰性的課題。近日,一支由北京大學與字節跳動聯合組成的科研團隊,成功研發出全球首個將顯式時空證據嵌入視頻推理全過程的開源模型——Open-o3 Video。該模型突破傳統視頻推理的局限,不僅能準確回答問題,還能在推理過程中同步標注關鍵事件的發生時間和具體位置,實現真正意義上的可追溯推理。
視頻理解任務要求模型同時處理時間維度的動態變化與空間維度的場景交互。傳統模型雖能識別畫面中的物體和動作,卻難以準確判斷事件發生的具體時間和位置。Open-o3 Video通過創新性的技術架構,成功解決了這一難題。該模型采用非agent架構設計,避免了復雜的工具調用和多輪推理,在單次回復中即可完成"觀察-思考-驗證-回答"的完整閉環。實驗數據顯示,在多個視頻推理測試中,其關鍵指標較現有模型提升最高達24.2%,性能表現超越GPT-4o和Gemini-2-Flash等閉源模型。
研發團隊指出,實現視頻推理的可解釋性面臨兩大核心挑戰:一是保持文本、時間戳和物體檢測框在推理過程中的一致性;二是解決時空耦合監督數據的嚴重缺失問題。現有數據集要么僅提供時間標注,要么只有空間標注,缺乏統一的時空標注體系。為突破這一瓶頸,團隊構建了首個面向顯式時空推理的統一語料體系STGR,包含30萬條監督微調數據和3.6萬條強化學習數據,其中5900條高質量時空數據通過嚴格標注流程確保數據質量。
該模型采用獨特的雙階段訓練機制:首先通過監督微調階段讓模型掌握推理格式與輸出規范,再通過基于GSPO的強化學習階段優化時空對齊能力。研發團隊特別設計了自適應時間臨近性機制和時間門控機制,前者通過動態調整時間獎勵的容忍范圍實現從粗定位到精定位的收斂,后者確保空間獎勵計算僅在時間預測準確時啟動。這種創新訓練方式使模型能夠穩定高效地學習時空推理能力。
在基準測試中,Open-o3 Video展現卓越性能。在時空推理基準V-STAR上,其時間對齊和空間對齊指標分別提升14.4%和24.2%;在VideoMME、WorldSense等四個主流測試集中,模型在需要復雜推理的時空任務和傳統視頻識別任務中均表現突出。特別是在VideoMME-Long子任務中,模型準確率達到54.9%,較基線模型提升4.1個百分點。
消融實驗驗證了模型設計的有效性:雙階段訓練機制使模型性能提升顯著,關鍵獎勵機制確保訓練穩定性,統一時空標注數據對推理能力提升至關重要。可視化結果顯示,模型在處理物體識別、動作分析和環境推理等任務時,不僅能給出準確答案,還能提供時間戳和目標框等可驗證證據,使推理過程透明可信。
目前,該研究的論文、代碼和模型已全部開源。這一突破性成果為視頻多模態模型的發展開辟了新方向,有望推動人工智能從"能理解"向"能定位、能解釋"的更高階段邁進。科研團隊表示,將持續完善時空推理數據與訓練機制,為更長視頻、更復雜場景下的問答任務提供可靠支撐。





