可靈AI通過官方渠道正式宣布,其研發的全球首款統一多模態視頻生成模型——可靈視頻O1已面向全體用戶開放使用。該模型通過構建新一代生成式技術框架,實現了文本、圖像、視頻等多類型任務的深度整合,用戶無需切換不同功能模塊即可完成復雜創作需求。
技術層面,模型創新性地引入多模態視覺語言交互架構(MVL),配合思維鏈(Chain-of-thought)推理機制,使系統具備對復雜場景的語義解析能力。官方演示顯示,該模型可同時處理包含多重指令的混合輸入,例如通過單段文本描述生成包含特定角色動作、環境細節的連貫視頻片段,并自動推演事件發展邏輯。
新上線的創作平臺顯著優化了交互體驗,用戶通過自然語言對話即可調用海量素材庫,精準控制畫面細節。系統支持對主體特征進行三維建模,確保在鏡頭運動、視角切換過程中保持形象一致性,即使同時存在多個可交互主體,各元素的空間關系與動作邏輯仍能保持精準協調。
據技術文檔披露,該模型經過海量跨模態數據訓練,形成獨特的語義理解維度。無論是靜態圖片、動態視頻還是文字描述,均可轉化為系統可執行的創作指令。這種設計突破了傳統視頻生成工具的功能邊界,為專業創作者與普通用戶提供了更高效的表達工具。
實際測試表明,在復雜場景構建任務中,模型可自動補全畫面細節并維持風格統一。例如用戶輸入"黃昏時分的賽博朋克城市,飛行汽車掠過全息廣告牌",系統不僅能生成符合物理規律的鏡頭運動,還會自主添加霓虹光影、雨滴反光等環境細節,使畫面更具沉浸感。











