12月1日,可靈正式發(fā)布了新模型——可靈 O1,并連續(xù)發(fā)布了可圖 O1、音畫同出模型可靈2.6、可靈數(shù)字人2.0、可靈O1主體庫&對比模版共五個更新。
最核心的是兩個O系列的生成模型,與 GPT的o系列一樣,“O”代表著Omni(all,一切),意味著模型不再局限于單一模態(tài)的輸入。
正因如此,O1也被視為視頻生成界的 “Nano Banana” 。它們的相似點在于,都是多模態(tài)整合,都具有強可控性和多輪編輯能力。
看起來很酷,但可靈的目標并不止于“又一個視頻模型”。
如果梳理近一年可靈的各種動作,你就會發(fā)現(xiàn),O系列或許只是一個序幕,接下來,可靈的方向是要做出自己的世界模型。
1
“Video World Model是未來!”
事實上,可靈想做世界模型的這份野心,從來沒有隱藏過。
第一個火爆的視頻生成模型Sora,在發(fā)布之初就宣稱自己是“世界模擬器”。22個月過去,越來越多的視頻生成模型都在宣傳或研究上,或多或少地朝“世界模型”靠近,可靈也不例外。
各種論文在提供著清晰線索。
早在2024年12月,Sora公開上線的同月,快手就發(fā)布過一篇名為《Owl-1: Omni World Model for Consistent Long Video Generation》的論文,提出了Omni World Model(Owl-1),用于產(chǎn)生長期連貫且全面的條件,實現(xiàn)持續(xù)的長視頻生成,預測未來動態(tài)[1]。
從論文來看,這是他們長達一年的技術演進的梳理。進入2025年,快手的可靈團隊就開始逐漸密集地發(fā)布世界模型相關研究。
在其中,你甚至可以找到各種當下火爆的路線方向。
2025年8月Google 發(fā)了實時交互的Genie3,快手則對它對應的這種生成式交互視頻在游戲領域的應用做了研究,論文獲得了ICCV 2025 Highlight。
2025年11月李飛飛正式發(fā)布的3D “世界模型”,快手也有一個對應的模型Terra。
這些名氣很大的關鍵節(jié)點,快手的策略是緊跟不缺席。
不過,隨著“世界模型”的概念被炒熱,這也存在一個爭議點——視頻生成模型,到底是不是世界模型?圖靈獎得主 Yann LeCun 曾為此潑過一盆冷水。他認為,“視頻生成并不等于世界模型”,單純預測下一個像素點,只是對畫面的模仿,并非對物理世界的真正理解。
然后快手可靈團隊在2025年11月也發(fā)布了一篇論文《Simulating the Visual World with Artificial Intelligence: A Roadmap》,里面給出了回應:視頻生成模型也可以學習物理規(guī)律,像素只是模型渲染給人類看的結果,不代表模型中間沒有計算和推理。
這篇論文可以看作是快手自己為“視頻生成模型如何通往世界模型”畫出的路線圖,在文中,快手明確將Kling 1.0歸類于第一代世界模型,Kling2.1 Master歸類于第二代世界模型。
在他們看來,現(xiàn)代視頻模型并非直接預測像素,而是存在一個隱式世界模型作為“大腦”,負責在肉眼不可見的高維潛在空間(Latent Space)中進行推演,這和LeCun的潛在空間推理同理,它接收當前的各種狀態(tài)輸入,基于推理能力和內(nèi)化的物理法則——如重力、流體動力學、物體恒常性——計算出下一時刻的世界狀態(tài)[3]。
快手專家研究員王鑫濤也直接在知乎上寫下判斷:“我相信,Video World Model 是未來”。
1
可靈最近研究都圍繞世界模型展開
繼續(xù)沿著《Simulating the Visual World with Artificial Intelligence: A Roadmap》這篇回看,快手那些看似碎片化的研究——從物理準確性到鏡頭運動控制——其實都能被串聯(lián)進這條通往“世界模型”之路中。
Roadmap里的一個核心是,團隊認為“視頻生成”走向“世界模型”的一個關鍵點是Navigation Mode(導航模式)。
快手認為,真正的世界模型不能只靠“空間條件”(如布局、草圖、深度圖)來描摹畫面、進行像素級或有限的控制;它必須能聽懂“導航條件”——即那些脫離了畫面依然成立的、具有時序的、具有空間推理的交互指令(如“向左轉”、“推拉鏡頭”)。
也正是因此,團隊有關“導航條件”的研究格外多。
鏡頭運動就是一種導航條件,ICCV 高分論文RecamMaster,提出了一種由攝像機控制的生成視頻重渲染框架,能夠在新的攝像機軌跡下再現(xiàn)輸入視頻的動態(tài)場景[4];SynCamMaster則進一步讓模型在同一時間軸上實現(xiàn)多攝像機視頻生成,確保不同視角間的內(nèi)容一致性[5];而AdaViewPlanner則讓 AI 變成了攝影指導,能自主規(guī)劃最佳觀察路徑[6]。這一系列研究,本質上都是在提升模型對3D、4D空間的動態(tài)感知。
這些研究,也反映在了此次的O系列里。
從目前可靈O系列的案例中也能看出,例如,可靈O1針對一張側面的車內(nèi)駕駛視頻,生成一張后座視角的車內(nèi)駕駛視頻;可圖O1將一張二維的房間設計圖,轉化為3維空間的設計圖等等。
按照快手Roadmap的定義,我們可以將可靈O1劃分在世界模型第二代到第三代之間。
在快手的定義中, 第二代的主要特征就是交互性,“導航模式”賦予了模型靈活的控制力,使其能遵循預定義軌跡執(zhí)行長動作序列,而第三代模型則更進一步,核心在于“規(guī)劃能力”(Planning)與“實時交互”, 進一步強化了導航模式,模型不僅能“聽指令走路”,還要能基于內(nèi)在的物理知識,自主推演并生成無限長的視頻序列。
也就是說,僅僅會“運鏡”是不夠的,模型還必須懂物理、能思考。因此在導航類論文之外,快手還構建了物理、推理方向的研究。
比如,快手推出的Monet訓練框架,通過讓多模態(tài)大語言模型 (MLLMs)直接在連續(xù)的潛在視覺空間中進行推理,增強視覺推理能力[7];
還有PhysMaster,作為一種模型外掛,通過注入物理知識來增強視頻生成模型的物理感知能力,使其能夠生成更符合物理規(guī)律的視頻。[8]。
隨著研究碎片們不斷補齊,O系列,會是可靈打開新“世界”的大門嗎?
1
在“賺錢工具”與“世界模擬器”的夾縫中
如果快手想要繼續(xù)向世界模型前進,實時性就是一個關鍵的卡點。
盡管 O1 模型在空間邏輯、指令遵循上有進步,但生成一段 5 秒的視頻目前仍需耗時約 2 分鐘。這種“高延遲”并非 O1 獨有的問題,回看從可靈 1.0 到可靈 2.1 Master 的整個迭代軌跡,團隊顯然采取了一種“畫質優(yōu)先,速度讓位”的策略。
但對于一個旨在模擬世界的系統(tǒng)而言,如果無法做到實時響應,那么它更像是一個精美的“離線渲染器”,而非真正意義上可交互的“世界模型”。如何在保持高保真畫質的同時,將分鐘級的生成時間壓縮至秒級、毫秒級,是一個難題。
不過,在一篇《Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval》的論文中,團隊也埋下了一個伏筆:隨著“上下文壓縮”技術的改進,視頻生成時間有望降低。
這一切也形成了一個非常有意思的“錯位”:當年第一個喊出“世界模擬器”口號的 Sora,如今反而越來越像個產(chǎn)品經(jīng)理,忙著搞 AI 視頻版的 TikTok,開發(fā) Cameo這種娛樂玩法,一門心思往應用層鉆,而快手盡管攢了一系列的研究,但偏偏對外的產(chǎn)品公布里,就不提世界模型。
“技術向左,產(chǎn)品向右”的矛盾背后,是商業(yè)盤算。
在11月19日的Q3財報會上,程一笑提到,視頻模型與大語言模型本質上均朝著世界模型方向演進,且視頻模型有望成為世界模型的核心技術支撐,但可靈現(xiàn)階段仍將“AI影視創(chuàng)作場景”作為核心目標。
某種程度上,可靈的產(chǎn)品和模型是分離的。模型在水下,可靈平臺作為一個產(chǎn)品才是對外輸出的核心。據(jù)快手Q1的財報會披露,可靈AI營業(yè)收入主要由P端付費用戶(指專業(yè)的自媒體、視頻創(chuàng)作者和廣告營銷從業(yè)者等)以及為企業(yè)客戶提供API服務構成,而其中近70%由P端付費用戶貢獻。
這群“金主”不在乎你是不是“世界模擬器”,也沒那么在乎實時性,他們只在乎能不能穩(wěn)定出片、能不能賺錢。因此可靈外宣稱自己是世界模型,似乎除了被挑剔,也沒有額外的增益。
但情況遲早要轉變。
單純作為“影視創(chuàng)作工具”的商業(yè)天花板是肉眼可見的,根據(jù)此前和11月19日披露的Q3數(shù)據(jù),可靈AI今年第一季度、第二季度、第三季度的收入分別超過1.5億元、2.5億元、3億元,全年預計收入1.4億美元,但增速逐漸放緩。
無論是谷歌 Veo3 被用于機器人領域,還是特斯拉利用生成式視頻訓練自動駕駛,亦或是游戲行業(yè)對AI引擎的渴求,具身智能、自動駕駛、游戲引擎等領域,才是視頻生成模型真正的星辰大海,對模型的物理一致性和實時交互能力也提出了極高的要求。
所以,哪怕對于視頻生成模型來說,想要不再只是一個昂貴的玩具或是一個輔助的創(chuàng)作工具,做成“世界模型”是一件生死攸關的大事。因為只有模擬真實,才能挖動和物理世界交互的金礦。








