海外AI視頻生成領域近日迎來新一輪技術競賽高潮。當地時間12月1日,初創企業Runway推出第四代半視頻生成模型Gen-4.5,在權威基準測試Artificial Analysis中以1247分超越谷歌Veo3登頂榜首。僅隔一小時,中國團隊可靈AI便在海外社交平臺宣布上線全新多模態視頻模型O1,兩大新品同日亮相引發行業高度關注。
根據最新榜單數據,谷歌Veo3以1226分位列第二,快手可靈2.5以1225分緊隨其后,OpenAI的Sora2 pro與MiniMax海螺02分別排名第七、第八。值得注意的是,Gen-4.5在正式發布前曾以"Whisper Thunder"代號參與測試,通過匿名評審機制提前鎖定最佳文生視頻模型稱號。
Runway團隊透露,新模型在預訓練數據利用率和后訓練優化技術上取得重大突破。用戶可通過單條指令實現復雜鏡頭調度、場景構圖設計、事件時間編排及氛圍精準控制。測試顯示,模型在提示詞響應精度、物理運動模擬、風格統一性等維度均有顯著提升,尤其在液體動力學、材質渲染等細節處理上達到新高度。
官方演示案例中,由西瓜、仙人掌等物品搭建的支撐結構上,鸚鵡振翅時西瓜呈現真實晃動效果,羽毛動態與光影變化均符合物理規律。但技術人員坦言,當前模型仍存在因果邏輯缺陷,偶發物體突然消失或時間順序錯亂等問題。Runway首席執行官Cristóbal Valenzuela表示,解決對象恒存性等基礎問題將是下一代模型研發重點。
這家成立于2018年的初創公司憑借百人團隊實現技術突圍,目前估值已達35.5億美元。自2023年2月發布首代模型Gen-1以來,其技術迭代速度持續領先行業。面對谷歌Veo系列帶來的競爭壓力,此次產品升級被視為鞏固市場地位的關鍵舉措,公司同步推進的新一輪融資計劃引發資本界關注。
國內方面,可靈O1雖暫未進入Artificial Analysis榜單,但其"統一多模態"的技術定位引發期待。該模型宣稱突破傳統視頻生成框架,實現文本、圖像、視頻等多類型輸入的協同處理。行業觀察人士指出,隨著頭部企業技術差距縮小,2025年視頻生成領域將進入多維競爭階段,谷歌Veo4等潛在新品可能隨時改寫現有格局。
技術突破背后,物理引擎精度與創作自由度的平衡仍是核心挑戰。Runway研發團隊承認,當前模型在模擬復雜力學系統時仍需人工干預,例如多物體交互場景中的受力計算尚未完全自動化。這種技術局限性在創意產業應用中尤為明顯,某動畫工作室測試反饋顯示,生成30秒專業級視頻仍需20%的手動修正工作。
市場研究機構預測,隨著Gen-4.5等新品開放商用,AI視頻生成成本有望在2026年前下降60%。Runway宣布將維持現有訂閱價格體系,通過技術優化實現"加量不加價"。這種定價策略可能引發行業連鎖反應,國內廠商是否跟進調整商業模式成為新的觀察焦點。









