滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

5天連更5次，可靈AI年末「狂飆式」升級

時間：2025-12-11 01:24:57 來源：量子位編輯：快訊 IP：北京 發表評論無障礙通道

12月伊始，可靈AI接連放出大招。

全球首個統一的多模態視頻及圖片創作工具“可靈O1”、具備“音畫同出”能力的可靈2.6模型、可靈數字人2.0功能……

5天內5次“上新”，直接讓生成式AI領域的競爭“卷”出新高度。

可靈O1，從圖片到視頻，帶來更強的“可控性”

可靈2.0發布的時候，就創新性地提出過一個全新交互理念——Multimodal Visual Language（MVL），讓用戶能夠結合圖像參考、視頻片段等多模態信息，將腦海中包含身份、外觀、風格、場景、動作、表情、運鏡在內的多維度復雜創意，直接高效地傳達給AI。

基于MVL理念，在最新的一次迭代中，可靈O1將所有生成和編輯任務融合于一個全能引擎之中，為用戶搭建全新的多模態創作流，實現從靈感到成品的一站式閉環。

就像a16z投資合伙人Justine Moore在產品發布后第一時間點評的那樣：

我們終于迎來了視頻界的Nano Banana。

以可靈視頻O1模型為例，它打破了傳統單一視頻生成任務的模型邊界，將參考生視頻、文生視頻、首尾幀生視頻、視頻內容增刪、視頻修改變換、風格重繪、鏡頭延展等多種任務，融合于同一個全能引擎之中，使得用戶無需在多個模型及工具間跳轉，即可一站式完成從生成到修改的全部創作流程。

就像下面這個視頻里你能看到的，無論是創作者們“頭疼”已久的主體一致性難題，還是視頻畫面的可控性問題，都在這次模型迭代里找到了相對完美的解決方案。

在圖片生成這件事上，可靈AI也創新性地完成了迭代。

最新上線的圖像O1模型，可以實現從基礎圖像生成到高階細節編輯全鏈路無縫銜接，對用戶來說，既可通過純文本生成圖像，也可上傳最多10張參考圖進行融合再創作。

“音畫同出”能力也有了！可靈2.6模型完成里程碑式迭代

眾所周知，可靈擁有一大批忠實的“發燒友”。他們既是產品的深度使用者，也能從功能層面提出自己的見解。

O1發布之后，就有不少網友排隊“許愿”產品功能，排名靠前的，幾乎都在關心可靈什么時候會推出伴隨視頻畫面的語音及音效直出功能。

答案很快就揭曉了。

12月3日夜晚，可靈AI接著“放大招”，正式推出2.6模型。

這次更新中，可靈AI上線里程碑式的“音畫同出”能力，徹底改變了傳統AI視頻生成模型“先無聲畫面、后人工配音”的工作流程。

它能夠在單次生成中，輸出包含自然語言、動作音效以及環境氛圍音的完整視頻，重構了AI視頻創作工作流，極大提升創作效率。

可靈AI海外超級創作者、AI電影導演Simon Meyer制作的這支宣傳片，生動詮釋了這次可靈2.6的能力創新之處。

對于創作者來說，輸入文本或是輸入圖片結合提示詞文本，均可直接生成帶有語音、音效及環境音的視頻。

語音部分，可靈目前支持生成中文以及英文，生成視頻長度最長支持10秒（據說，更多樣的語言體系以及固定聲線等功能正在研發中）。

通過對物理世界聲音與動態畫面的深度語義對齊，可靈2.6模型在音畫協同、音頻質量和語義理解上表現亮眼。

對“音畫同出”能力感興趣的朋友，可以趕快試試，說不定你會和Simon Meyer一樣產生強烈共鳴。

密集更新背后，可靈AI在下一盤怎樣的大棋？

除了全新推出的可靈O1及2.6模型這兩大重磅更新，可靈還在上周相繼推出了數字人2.0、可靈O1主體庫&對比模板等功能，從AI內容生成的實際流程出發，帶來更加便捷的操作體驗。

5天內5次“上新”，功能層面的精進背后，是可靈對于生成式AI技術的極致追求。

比如12月1日推出的視頻O1模型，就打破了視頻模型在生成、編輯與理解上的功能割裂，構建了全新的生成式底座。

融合多模態理解的Multimodal Transformer和多模態長上下文（Multimodal Long Context），實現了多任務的深度融合與統一。

根據可靈AI團隊的內部測評，在“圖片參考”任務上，可靈AI對Google Veo 3.1的整體效果勝負比為247%；在“指令變換”任務上，與Runway Aleph對比的整體效果勝負比達到230%。

尤為難得的是，作為國產視頻生成大模型領域的代表，從2024年6月正式推出以來，可靈AI的每一次迭代幾乎都能讓業界迎來一次“集體興奮”。

從早期人們津津樂道的吃面條的案例，到特斯拉創始人馬斯克的點贊，再到可靈AI這一波“批量上新”操作，視覺生成技術逐步走向成熟的過程里，可靈AI無疑是那個常常喚起共鳴的關鍵角色。

△X網友Min Choi發布的文章，對比了不同技術能力之下“威爾·史密斯吃意大利面”的經典場景。后者使用可靈2.6模型生成，這一次，除了相當出色的視頻畫面呈現，吃面條時的環境音也能直出了。

在持續引發討論的同時，能否推進技術的廣泛應用落地，也是生成式AI平臺不得不面對的問題。

數據顯示，可靈AI目前覆蓋的企業用戶數超過2萬家，涵蓋影視制作、廣告、創意設計、自媒體、游戲、電商等等諸多領域。

多元的行業客戶構成，意味著可靈AI必須持續打破技術應用的上限。

就像這次升級的可靈2.6模型，可以支持包括說話、對話、旁白、唱歌、Rap、環境音效、混合音效等多種聲音的單獨或混合生成，能夠廣泛地應用于各行各業的實際創作場景中，極大提升創作效率；

再比如數字人2.0功能的迭代，對于創作者而言，只需要上傳角色圖，添加配音內容并描述角色表現，就可以得到表現力生動的“自定義數字人”，更令人興奮的是，視頻內容最長可達5分鐘。

快手高級副總裁、可靈AI事業部負責人兼社區科學線負責人蓋坤曾在不同場合表示：

我們的初心，是讓每個人都能用AI講出好的故事，我們也真切地希望這一天更快到來。

更多>同類資訊

AI居然能算出我的寫作MBTI？B站百大UP主做的這個工具，把我整不會了

12-11

Google懸賞2萬美元尋找Chrome AI漏洞

12-11

夸克AI眼鏡「爆單」：現貨被最高炒到5000元，產能已排到45天后

12-11

復盤羅永浩對談MiniMax閆俊杰：一個AI原生的公司是怎么長出來的

12-11

夫妻肺片是「夫妻的肺」，煲仔飯是真煲「仔」？這屆網友真抽象

12-11

快手發布12月違規短劇治理：下架百余部，處置多個賬號

12-11

扎克伯格用阿里通義千問優化Meta新AI，阿里美股盤前拉升引關注

扎克伯格把部分參與該項目的人邊緣化，同時親自出面挖角頂尖的AI研究人員和負責人，有些人拿到了數億美元級別、為期多年的薪酬方案，現在，扎克伯格把大量時間和精力花在和這些新加入的人密切合作上，他們被集中到一個名為…

12-11

Instagram上線AI新功能：用戶可自主調整Reels推薦主題定制專屬內容偏好

12-11

23天月活破3000萬！阿里千問：從技術領先邁向AI價值全面落地

12-11

影石無人機銷量引爭議：線上千余臺與創始人宣稱3000萬差距大

12-11

iPhone Fold 2026年入場可折疊手機市場，首年或攬超22%份額

12-11

23天月活破3000萬！千問引領中國AI從“基建”邁向“應用”新征程

12-11

Meta重大戰略轉向：扎克伯格親督AI研發阿里千問助力新模型訓練

12-11

小紅書成AI創業新陣地：5萬開發者聚集，打造創新閉環生態

12-11

QuestMobile報告：2025年10月00后月活達1.79億閑魚增速領跑綜合電商平臺

12-11

點擊查看更多 +

全站最新

智己LS8申報圖曝光豐富配置加持或成新能源大型SUV市場新勢力

比亞迪漢L唐L鄭州發布會：OTA升級解難題，新車色登場引期待

2026款豐田bZ4X海外煥新登場續航動力升級澳洲還將推Touring車型

952匹狂暴動力+頂級底盤配置蓮花For Me能否打破超豪華市場格局？

捷尼賽思G90 Wingback旅行車官圖發布運動外觀吸睛未來或限量量產

全新寶馬i3諜照來襲！2026年7月投產，續航科技雙升級競逐豪華純電市場

熱門內容

本欄最新

技術領航生態筑基，逸安啟一周年開啟綠電補能新篇章

Linux基金會牽頭成立AAIF：OpenAI谷歌亞馬遜等巨頭共筑AI智能體開源生態

10億人次跟榜下單，京東金榜2025年度揭曉：品質與AI共塑消費新標桿

95后字節系創業者再出發，朱嘯虎押注AI低門檻工作流新星Refly.AI

月活破3000萬！阿里千問引領AI應用新變革，成立事業群加速落地

QuestMobile報告：2025年00后月活1.79億閑魚成其循環情緒消費重要陣地

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级

5天連更5次，可靈AI年末「狂飆式」升級