12月伊始,可靈AI接連放出大招。
全球首個統一的多模態視頻及圖片創作工具“可靈O1”、具備“音畫同出”能力的可靈2.6模型、可靈數字人2.0功能……
5天內5次“上新”,直接讓生成式AI領域的競爭“卷”出新高度。
可靈O1,從圖片到視頻,帶來更強的“可控性”可靈2.0發布的時候,就創新性地提出過一個全新交互理念——Multimodal Visual Language(MVL),讓用戶能夠結合圖像參考、視頻片段等多模態信息,將腦海中包含身份、外觀、風格、場景、動作、表情、運鏡在內的多維度復雜創意,直接高效地傳達給AI。
基于MVL理念,在最新的一次迭代中,可靈O1將所有生成和編輯任務融合于一個全能引擎之中,為用戶搭建全新的多模態創作流,實現從靈感到成品的一站式閉環。
就像a16z投資合伙人Justine Moore在產品發布后第一時間點評的那樣:
我們終于迎來了視頻界的Nano Banana。
以可靈視頻O1模型為例,它打破了傳統單一視頻生成任務的模型邊界,將參考生視頻、文生視頻、首尾幀生視頻、視頻內容增刪、視頻修改變換、風格重繪、鏡頭延展等多種任務,融合于同一個全能引擎之中,使得用戶無需在多個模型及工具間跳轉,即可一站式完成從生成到修改的全部創作流程。
就像下面這個視頻里你能看到的,無論是創作者們“頭疼”已久的主體一致性難題,還是視頻畫面的可控性問題,都在這次模型迭代里找到了相對完美的解決方案。
在圖片生成這件事上,可靈AI也創新性地完成了迭代。
最新上線的圖像O1模型,可以實現從基礎圖像生成到高階細節編輯全鏈路無縫銜接,對用戶來說,既可通過純文本生成圖像,也可上傳最多10張參考圖進行融合再創作。
“音畫同出”能力也有了!可靈2.6模型完成里程碑式迭代眾所周知,可靈擁有一大批忠實的“發燒友”。他們既是產品的深度使用者,也能從功能層面提出自己的見解。
O1發布之后,就有不少網友排隊“許愿”產品功能,排名靠前的,幾乎都在關心可靈什么時候會推出伴隨視頻畫面的語音及音效直出功能。
答案很快就揭曉了。
12月3日夜晚,可靈AI接著“放大招”,正式推出2.6模型。
這次更新中,可靈AI上線里程碑式的“音畫同出”能力,徹底改變了傳統AI視頻生成模型“先無聲畫面、后人工配音”的工作流程。
它能夠在單次生成中,輸出包含自然語言、動作音效以及環境氛圍音的完整視頻,重構了AI視頻創作工作流,極大提升創作效率。
可靈AI海外超級創作者、AI電影導演Simon Meyer制作的這支宣傳片,生動詮釋了這次可靈2.6的能力創新之處。
對于創作者來說,輸入文本或是輸入圖片結合提示詞文本,均可直接生成帶有語音、音效及環境音的視頻。
語音部分,可靈目前支持生成中文以及英文,生成視頻長度最長支持10秒(據說,更多樣的語言體系以及固定聲線等功能正在研發中)。
通過對物理世界聲音與動態畫面的深度語義對齊,可靈2.6模型在音畫協同、音頻質量和語義理解上表現亮眼。
對“音畫同出”能力感興趣的朋友,可以趕快試試,說不定你會和Simon Meyer一樣產生強烈共鳴。
密集更新背后,可靈AI在下一盤怎樣的大棋?除了全新推出的可靈O1及2.6模型這兩大重磅更新,可靈還在上周相繼推出了數字人2.0、可靈O1主體庫&對比模板等功能,從AI內容生成的實際流程出發,帶來更加便捷的操作體驗。
5天內5次“上新”,功能層面的精進背后,是可靈對于生成式AI技術的極致追求。
比如12月1日推出的視頻O1模型,就打破了視頻模型在生成、編輯與理解上的功能割裂,構建了全新的生成式底座。
融合多模態理解的Multimodal Transformer和多模態長上下文(Multimodal Long Context),實現了多任務的深度融合與統一。
根據可靈AI團隊的內部測評,在“圖片參考”任務上,可靈AI對Google Veo 3.1的整體效果勝負比為247%;在“指令變換”任務上,與Runway Aleph對比的整體效果勝負比達到230%。
尤為難得的是,作為國產視頻生成大模型領域的代表,從2024年6月正式推出以來,可靈AI的每一次迭代幾乎都能讓業界迎來一次“集體興奮”。
從早期人們津津樂道的吃面條的案例,到特斯拉創始人馬斯克的點贊,再到可靈AI這一波“批量上新”操作,視覺生成技術逐步走向成熟的過程里,可靈AI無疑是那個常常喚起共鳴的關鍵角色。
△X網友Min Choi發布的文章,對比了不同技術能力之下“威爾·史密斯吃意大利面”的經典場景。后者使用可靈2.6模型生成,這一次,除了相當出色的視頻畫面呈現,吃面條時的環境音也能直出了。在持續引發討論的同時,能否推進技術的廣泛應用落地,也是生成式AI平臺不得不面對的問題。
數據顯示,可靈AI目前覆蓋的企業用戶數超過2萬家,涵蓋影視制作、廣告、創意設計、自媒體、游戲、電商等等諸多領域。
多元的行業客戶構成,意味著可靈AI必須持續打破技術應用的上限。
就像這次升級的可靈2.6模型,可以支持包括說話、對話、旁白、唱歌、Rap、環境音效、混合音效等多種聲音的單獨或混合生成,能夠廣泛地應用于各行各業的實際創作場景中,極大提升創作效率;
再比如數字人2.0功能的迭代,對于創作者而言,只需要上傳角色圖,添加配音內容并描述角色表現,就可以得到表現力生動的“自定義數字人”,更令人興奮的是,視頻內容最長可達5分鐘。
快手高級副總裁、可靈AI事業部負責人兼社區科學線負責人蓋坤曾在不同場合表示:
我們的初心,是讓每個人都能用AI講出好的故事,我們也真切地希望這一天更快到來。












