如果不是刻意去翻學(xué)術(shù)主頁,很多人可能到今天都還不知道:前商湯執(zhí)行研究總監(jiān)、AIGC 產(chǎn)品「秒畫」幕后負責(zé)人劉宇,已經(jīng)把自己的新公司,做到了一輪估值“超過 13.2 億美元”的地步。
這一消息并不是出自什么高調(diào)的融資通稿,而是悄悄寫在他個人主頁的 News 一欄里:
2025 年 1 月創(chuàng)立了一家專注“實時交互多模態(tài)內(nèi)容”的 AI 初創(chuàng)企業(yè);同年 2 月完成種子輪,由紅杉中國和 IDG 資本聯(lián)合領(lǐng)投;8 月 Pre-A 估值突破 4 億美元;11 月 A 輪估值 突破13.2億美元。
換算一下,這家才剛滿一歲的“tiny AI venture”,如今的身價已經(jīng)站進全球視頻模型創(chuàng)業(yè)公司第一梯隊——和 Runway 最新一輪 30 億美元估值、Luma 40 億美元估值、Pika Labs 幾億美金區(qū)間的體量,處在同一個桌邊對話。
更耐人尋味的是,這家公司如今估值已經(jīng)邁過13.2 億美元,但外界至今連它的正式名字都叫不太準,產(chǎn)品本身也從未真正“公開亮相”。
不過,業(yè)內(nèi)開始浮現(xiàn)一些隱約線索。有傳聞稱,劉宇背后的創(chuàng)業(yè)公司很可能就是Vivix AI。如果對照 Vivix AI 官網(wǎng)的技術(shù)敘述——主打“內(nèi)容實時互動”“下一代視覺生成引擎”等方向——幾乎與劉宇在個人主頁上寫下的愿景一一對照,技術(shù)路線高度同頻。
進一步檢索公開信息可以發(fā)現(xiàn),Vivix Group Limited 注冊于香港,并控股杭州、上海兩家名為“維悅時刻科技”的公司。其法人代表余鋒偉與宋廣錄此前都在商湯任職,而劉宇也曾長期擔(dān)任商湯的研究執(zhí)行總監(jiān)。這樣的交叉履歷,讓“老同事再度合體創(chuàng)業(yè)”的可能性顯得格外順理成章。
更關(guān)鍵的是,劉宇今年在ICML、CVPR、ICLR等頂會發(fā)表的多篇論文中,合作者列表里都出現(xiàn)了余鋒偉與宋廣錄的名字。
不僅如此,公司在官網(wǎng)對于估值的描述與劉宇在博客上的描述也基本一致。
種種跡象相互印證,答案幾乎呼之欲出:這支看似低調(diào)的“tiny AI venture”,很可能正以 Vivix AI 的身份,在幕后一寸寸搭建中國最具野心的視頻模型創(chuàng)業(yè)團隊。
不過,這些都只是業(yè)內(nèi)推測。
劉宇:從 MMLab 學(xué)霸,到商湯幾千卡算力的“總指揮”劉宇屬于典型的“港系視覺 AI 一代”。公開資料里,他在港中文 MMLab 體系完成博士訓(xùn)練,師從王曉剛,早期工作集中在圖像識別、檢測與多視角三維理解;在 ImageNet、MOT 等國際競賽中拿過一系列冠軍,是那種論文和比賽履歷都極其好看的“教科書式學(xué)霸”。
真正讓他被產(chǎn)業(yè)圈記住的,是在商湯的那幾年。
在個人主頁的簡介里,他寫自己曾是商湯的 Executive Director of Research and GM,帶著近百人的團隊做大規(guī)模 AIGC 和多模態(tài)交互模型,手里掌控著超過 4000 張 GPU,用來驅(qū)動技術(shù)與產(chǎn)品創(chuàng)新。
秒畫就是一個標志性樣本:官方公開的數(shù)據(jù)是,這款 AIGC 產(chǎn)品上線僅 9 天,用戶數(shù)就突破 300 萬,DAU 超過 53 萬,堪稱最早一批真正跑通“AI 畫圖 + 內(nèi)容社區(qū)”兼顧的產(chǎn)品之一。
這種履歷有兩個含義。
第一,他不是那種只在論文世界打轉(zhuǎn)的“純學(xué)術(shù)派”,而是經(jīng)歷過“幾千卡長期開機 + 線上千萬級用戶”的實戰(zhàn)型指揮官,對模型訓(xùn)練、工程系統(tǒng)、產(chǎn)品冷啟動、內(nèi)容審核和商業(yè)指標都有過真刀真槍的磨合。
第二,從技術(shù)路徑上看,他的研究興趣在近幾年明顯從“識別”轉(zhuǎn)向“生成 + 多模態(tài) + 長時序”。他參與的工作里,既有圖像編輯與高質(zhì)量生成,也有長視頻、動畫、世界建模方向的探索。這讓他在視頻模型這一波浪潮到來之前,就完成了相當(dāng)程度的知識和工程“預(yù)熱”。
所以,當(dāng)他在 2025 年 1 月寫下那句 “I founded an AI venture dedicated to shaping the future of real-time interactive multimodal content.”,本質(zhì)上是在公開宣告:以前在大廠內(nèi)部打的那些“組合拳”,接下來要在一個更激進、也更純粹的創(chuàng)業(yè)形態(tài)里再打一遍。
一年三輪,估值 13.2 億美元從時間軸看,這家“tiny AI venture”的融資節(jié)奏堪稱極致。
2025 年 1 月,公司成立。
2 月,種子輪就鎖定紅杉中國與 IDG 資本這對“老牌組合”,在早期就拿到了非常強的話語權(quán)背書。
8 月,Pre-A 輪估值超過 4 億美元。
11 月,A 輪估值超過 13.2 億美元。
這么快的節(jié)奏,放到全球 AI 視頻賽道也并不多見。對比幾個樣本:
Runway 在 2025 年 4 月完成了 3.08 億美元的 D 輪融資,估值被推到 30 億美元左右,融資方包括 General Atlantic、英偉達、軟銀等一線機構(gòu);
Luma AI 在 2025 年底一輪 9 億美元融資后,估值來到 40 億美元,成為視覺內(nèi)容和視頻生成領(lǐng)域里最被看好的獨角獸之一
Pika Labs 在 2024–2025 年間通過多輪融資,估值在 4.7 億到 7 億美元區(qū)間波動,最新公開信息顯示約 4.7 億美元,一些分析認為其潛在目標估值接近 7 億美元。
換句話說,劉宇的新公司在創(chuàng)立不到一年時,就直接站進了這個 valuation 區(qū)間的中上部——而在產(chǎn)品尚未全面公開、品牌知名度也遠未到 Runway、Pika 這個級別。
這背后,資本在買的到底是什么?
他們想做怎樣的視頻模型目前,劉宇只在主頁上透露一句話:公司致力于“real-time interactive multimodal content”,大致可以翻譯成“實時交互式多模態(tài)內(nèi)容”。但結(jié)合Vivix的公開信息,配合劉宇過去幾年的研究軌跡,大概可以幫我們拼出一個輪廓。
過去十幾年,我們幾乎都活在信息流里。算法幫你把內(nèi)容排好隊,一條條往上刷,所有精彩都已經(jīng)被提前錄制、剪輯、投放好。它高效,卻是被動的,它做的永遠是“從現(xiàn)有庫里選”,而不是“根據(jù)你的當(dāng)下需求現(xiàn)場創(chuàng)作”。它從一開始,就不是為實時互動、多人協(xié)同創(chuàng)作而生的。
Vivix 的判斷很簡單也很激進:下一代互聯(lián)網(wǎng)的底層界面,不會再是信息流,而是交互式生成人工智能。用戶不再是看完一條又一條靜態(tài)輸出,而是站在一套 AI 系統(tǒng)的對面,這個系統(tǒng)能實時“看見”你、“聽見”你、理解你的文字、聲音、視頻乃至動作,并用同樣多模態(tài)的表達即時回應(yīng)。所有數(shù)字體驗的設(shè)計邏輯,都要因此被重寫:內(nèi)容不再是預(yù)制劇本,而是在你每一次輸入、每一個動作之中被臨場生成,創(chuàng)作過程本身變成一種持續(xù)、流動、充滿生命力的互動。
Vivix 想搭的,就是這樣一個新范式的底座——不是再造一個推薦引擎,而是做一個“不會推薦內(nèi)容”的 AI 原生平臺:它做的唯一一件事,是通過持續(xù)的實時互動,為每個個體生成多模態(tài)、個性化的體驗。
真正的難點,在于“實時”二字。
今天最強的視頻生成模型,在質(zhì)量上確實已經(jīng)非常驚人,但只要你想把它用在“交互”場景里,問題就立刻暴露:速度慢,成本高。一次推理往往要幾秒甚至幾分鐘,完全不適合“你說一句、它立刻給你”這種使用方式。粗暴地堆 GPU 做并行,雖然勉強能提速,卻會把推理成本拉到每秒幾美元的離譜水平,根本沒法規(guī)模化用在 C 端。
要做到這一點,僅僅在模型結(jié)構(gòu)上做文章遠遠不夠,Vivix 幾乎是把整條推理棧都改寫了一遍。
第一層是精度與效率的重新定義。傳統(tǒng)做法里,“高精度”幾乎等于“高成本”,而所謂低精度優(yōu)化大多停留在粗粒度的 INT8、FP16 轉(zhuǎn)換上,很容易把質(zhì)量打穿。Vivix 提出的是一種自適應(yīng)、全頻譜的低精度計算:在不同算子、不同路徑上動態(tài)調(diào)整位寬,讓每一比特都物盡其用。這不是簡單的“全網(wǎng)降一檔”,而是結(jié)合網(wǎng)絡(luò)結(jié)構(gòu)和上下文,實時做精度分配。結(jié)果是,計算、內(nèi)存訪問、通信三個維度同時受益,吞吐量顯著抬升,功耗壓到能在消費級硬件上跑的水平上,自適應(yīng)精度本身被當(dāng)成了“推理民主化”的基礎(chǔ)能力。
第二層,是基于深度學(xué)習(xí)編譯器的推理引擎。今天大多數(shù)推理引擎還嚴重依賴“手工優(yōu)化內(nèi)核”——換一塊硬件、換一類模型,就得從頭調(diào)優(yōu)一遍,既慢又難擴展。Vivix 走的是另一個方向:用智能編譯器自動切分、重排計算密集型算子,讓它們更好地貼合 GPU 內(nèi)存和計算結(jié)構(gòu);在圖層級識別計算與通信模式,把互聯(lián)、CPU 通信和主計算重疊起來;通過對計算圖的深度融合,把向量運算和各種非線性層的開銷成片削平。這不是在現(xiàn)有內(nèi)核上再擰一圈螺絲,而是在重新回答一個問題:在模型和硬件演化速度遠超工程人力的世界里,推理引擎應(yīng)該如何工作。
第三層,是為視頻場景重寫的并行范式。視頻生成的難度在于它既有時間維,又有空間維,還有跨模態(tài)的耦合,傳統(tǒng)那套“簡單劃分 batch 或分層并行”的做法很快就會撞到墻。Vivix 在這里做的是混合多維并行,把時間、空間、通道、模態(tài)拆開、組合,再配合跨模態(tài)流水線式的并行策略,在混合 Transformer-CNN 架構(gòu)上盡可能逼近硬件利用率的理論上限。更關(guān)鍵的是,這一套并行方案會根據(jù)實際 GPU 型號、互連拓撲和帶寬狀況自動調(diào)整,讓系統(tǒng)在異構(gòu)環(huán)境里也能保持相對穩(wěn)定的表現(xiàn)。
在這些基礎(chǔ)之上,Vivix Turbo 這條“實時視頻生成基礎(chǔ)設(shè)施”線才最終成型:從傳統(tǒng)意義上需要幾分鐘才能產(chǎn)出幾秒視頻的系統(tǒng),變成了可以在“0.6T 秒生成 T 秒畫面”的推理引擎,整體速度直接提升兩個數(shù)量級以上。
一旦延遲被打到這個量級,視頻 AI 的“物種形態(tài)”就會發(fā)生變化:如果你要等幾個小時,那它只是一臺批處理機器;等幾分鐘,它可以成為一個幫你改版的創(chuàng)意助手;等幾秒鐘,它開始能支撐快速試錯與原型探索;延遲低于一秒,它就徹底變成了一種新的交互媒介,人類創(chuàng)造力的一條延伸神經(jīng)。
速度和成本的問題解決了,Vivix 盯上的下一個結(jié)構(gòu)性瓶頸,是“以語言為中心的智能范式”。
過去幾年,大模型社區(qū)幾乎所有的優(yōu)化,都圍繞著 LLM 打轉(zhuǎn):RAG、思維鏈提示、測試時縮放、用強化學(xué)習(xí)做推理等等。這些技術(shù)確實在可用性上給模型加了很多“外掛”,但 Vivix 的態(tài)度很直白:這都還在原有約束條件里打補丁,沒有直面問題的根源。
問題的根源在于,當(dāng)前主流 LLM 的訓(xùn)練目標,仍然只是“預(yù)測下一個 token”——本質(zhì)上是一種統(tǒng)計模仿。這有點像一個人聽一首外語歌聽了一萬遍,最后能倒背如流,卻依然不懂歌詞在說什么。模型學(xué)會的是形式,不是思想。
數(shù)據(jù)也有同樣的局限。人類語言本身就是一種窄帶編碼:它被意圖、文化、記憶和情境層層過濾,再被記錄、存儲、采樣進入訓(xùn)練集。真正喂進模型的,不是完整的現(xiàn)實,而是被過濾、壓縮、去語境化之后的“語言回聲”,而且多半來自社會中一個帶偏見的子集。你讓模型在這堆語言上學(xué)世界,它學(xué)到的必然是偏的。
更進一步,即便對人類來說,思考也不是純語言的過程。我們的認知扎根于視覺、聽覺、動作和記憶,那是我們與世界具身互動留下的痕跡。思想更多是從互動中長出來的,而不是靠內(nèi)心獨白堆疊。今天很多“多模態(tài)”系統(tǒng),看上去能處理圖像、視頻、音頻,實際上把一切都“路由”回語言這一條通道,最后再用語言模型去做決策。這會帶來兩個結(jié)構(gòu)性問題:一是信息損失,語言丟掉了節(jié)奏、情緒、空間連續(xù)性;二是認知偏差,語言的先驗會強行給其他模態(tài)加濾鏡,讓模型“看世界的方式”出現(xiàn)系統(tǒng)性偏斜。
Vivix 的回答是:要做更貼近現(xiàn)實、更具自主性的智能,AI 必須超越“基于語言特征的 token 預(yù)測”,直接去跨模態(tài)地、同步地感知世界,在此基礎(chǔ)上構(gòu)建一種原生的內(nèi)部表征,而不是把所有東西翻譯成語言。
這也是為什么他們強調(diào),Vivix 的系統(tǒng)不是“把若干預(yù)訓(xùn)練組件拼起來”,而是從一開始就把視覺、聽覺、動態(tài)畫面當(dāng)作對等的一等公民,訓(xùn)練一個原生多模態(tài)的系統(tǒng):所有模態(tài)在一個統(tǒng)一的標記空間里交互,這個空間不是以語言為中心,而是由感知與生成過程共同塑造。語言不再是“總路由”,而只是眾多通路之一。
尾聲也許,這家一年三輪、估值突破 13.2 億美元的“tiny AI venture”之所以讓行業(yè)格外警覺,并不是因為它漲得快,而是因為它賭得深。
劉宇帶著一支不到 20 人、卻幾乎涵蓋模型、系統(tǒng)、編譯器、產(chǎn)品體驗全棧的團隊,選擇在視頻模型競爭最擁擠的節(jié)點上,走一條完全反向的道路:不是做更好看的生成,不是卷參數(shù)和分辨率,而是試圖把“視頻”變成一種實時交互的語言,把下一代互聯(lián)網(wǎng)的界面重新定義為“AI 原生、實時、多模態(tài)”的形態(tài)。
這當(dāng)然大膽,也極其難。產(chǎn)品還沒亮相,真正的市場考驗還沒有開始。但如果他們賭對了,那會是一個方向級的勝利——讓視頻從被動播放的內(nèi)容形態(tài),躍遷為人與 AI 協(xié)同創(chuàng)造的實時界面。
資本押注的是可能性,行業(yè)盯住的是變量,而故事最終還是要落在產(chǎn)品上。接下來最值得期待的,是 Vivix 首個面向 C 端的實時交互產(chǎn)品會長成什么樣——它是短暫的“技術(shù)炫技”,還是一種全新的互聯(lián)網(wǎng)交互方式的開端?
這道題,很快就會有答案。(Z Finance)










