可靈AI通過官方公眾號正式宣布,其研發的全球首個統一多模態視頻模型——可靈視頻O1模型已全面上線。這一突破性成果標志著視頻生成技術邁入全新階段,通過整合多模態交互能力,為用戶提供更智能、更靈活的創作體驗。
據官方介紹,可靈O1模型的核心創新在于構建了統一的生成式底座架構。該架構突破了傳統功能模塊的割裂限制,通過引入MVL(多模態視覺語言)交互框架,實現了文本、圖像、視頻等不同形式輸入的無縫融合。用戶僅需在單一交互界面中輸入指令,即可完成復雜場景的生成任務,顯著提升了創作效率。
技術層面,模型深度融合了Chain-of-thought推理機制,使其具備強大的常識判斷與事件推演能力。官方宣稱,該系統能夠精準解析各類輸入內容,無論是靜態照片、動態視頻還是文字描述,均可轉化為可執行的創作指令。配合全新升級的交互界面,用戶通過自然語言對話即可自由調用素材庫,實現細節參數的精準調控。
在主體呈現方面,可靈O1模型展現出顯著優勢。其支持多視角主體構建技術,即使鏡頭角度發生劇烈變化,主體特征仍能保持高度一致性,確保畫面連貫穩定。更值得關注的是,該系統允許用戶同時操作多個獨立主體,通過智能關聯算法實現復雜場景的協同生成,為影視制作、廣告創意等領域開辟了新的可能性。
此次升級同步推出的創作平臺進一步降低了技術門檻。用戶無需掌握專業軟件操作,通過直觀的對話式交互即可完成從概念設計到成品輸出的全流程。系統內置的智能糾錯機制可實時優化生成結果,確保最終作品符合創作預期。據測試數據顯示,新平臺在復雜場景渲染速度上較前代產品提升近40%,同時保持了98.7%的語義理解準確率。










