滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 業(yè)界動(dòng)態(tài) > 正文內(nèi)容

實(shí)測(cè)可靈2.6：給AI視頻上了一堂聲音課

時(shí)間：2025-12-10 11:08:59 來(lái)源：市象編輯：快訊 IP：北京 發(fā)表評(píng)論無(wú)障礙通道

中文視頻AI邁入“有聲之年”。

作者|景行編輯|楊舟

不得不感嘆AI大模型的進(jìn)步速度。

12月，可靈AI先是發(fā)布統(tǒng)一多模態(tài)視頻大模型可靈O1，緊接著閃電發(fā)布可靈2.6、數(shù)字人2.0。

可靈2.6的發(fā)布，則讓困擾視頻工作者已久的聲畫(huà)不同步問(wèn)題得到解決，其核心功能就是音畫(huà)同出，簡(jiǎn)單理解，一次生成，能同時(shí)做出視頻和音頻，而且二者實(shí)時(shí)同步。

其中，可選的音頻效果不僅涵蓋人聲對(duì)話(huà)、獨(dú)白，還提供環(huán)境音、效果音、樂(lè)器演奏乃至說(shuō)唱等完整的音頻生態(tài)。

在此之前，部分海外視頻模型已經(jīng)在音畫(huà)同出領(lǐng)域做出探索，如Google Veo 3.1和OpenAI Sora 2，二者均能實(shí)現(xiàn)從口型到動(dòng)作、聲音的同步生成，并與畫(huà)面完成匹配。

但這些模型同樣存在弱點(diǎn)，如音頻控制力不足，同角色的不同片段聲音、語(yǔ)氣統(tǒng)一效果一般，對(duì)中文語(yǔ)音的理解不足導(dǎo)致腔調(diào)怪異，用戶(hù)調(diào)整困難等等。

在可靈2.6發(fā)布后，「市象」也在第一時(shí)間試用了產(chǎn)品。在一系列測(cè)試后，可以確認(rèn)的是，AI視頻模型，要對(duì)過(guò)去的創(chuàng)作流程徹底重構(gòu)了。

01從啞劇到聲臨其境

AI視頻的音畫(huà)同出，并非最新功能，此前已有多模型能做到。

“Sora 2是視頻生成領(lǐng)域的 GPT-3.5時(shí)刻。”

這一表述來(lái)自今年9月，OpenAI的官方博客。伴隨新一代視頻生成模型Sora2發(fā)布，OpenAI公開(kāi)表示，新模型的性能已經(jīng)超越歷代模型，不僅在物理效果上更加精確，同時(shí)還配備了同步音頻功能。

例如，在生成視頻時(shí)，能完成復(fù)雜的運(yùn)動(dòng)動(dòng)作，或模擬真實(shí)運(yùn)動(dòng)場(chǎng)的物理表現(xiàn)，同時(shí)生成背景音、語(yǔ)音和音效，并將其融入到視頻當(dāng)中。

但面對(duì)Sora2、Veo3.1這樣的海外一線(xiàn)模型時(shí)，不少海外博主，表現(xiàn)出對(duì)可靈2.6的認(rèn)可。

“這比Veo3好多了！相比Veo3，它最大的優(yōu)勢(shì)在于：原生支持1080p，這在畫(huà)質(zhì)上帶來(lái)了巨大的提升。”

這一表述來(lái)自海外視頻博主Simon Meyers，在分享中，他使用可靈2.6制作了一則預(yù)告片，并用各種復(fù)雜的提示詞來(lái)測(cè)試模型功能：

“我嘗試了各種聲音和對(duì)話(huà)，沒(méi)有發(fā)現(xiàn)任何明顯的限制——音效、人聲，甚至歌聲都能完美呈現(xiàn)！當(dāng)然，和所有視頻模型一樣，你仍然需要進(jìn)行一些迭代，但這完全可以接受。語(yǔ)音聽(tīng)起來(lái)很逼真，語(yǔ)調(diào)也十分精準(zhǔn)，總的來(lái)說(shuō)，這是一個(gè)巨大的飛躍。”

單人獨(dú)白、背景歌曲、視頻氛圍音效、吉他彈奏聲（甚至有遠(yuǎn)景和近景下，兩種吉他音的不同表現(xiàn)）、歌唱聲、打擊樂(lè)器聲、氣球、攪拌器、電鉆、無(wú)人機(jī)、甚至結(jié)尾字幕配合的女聲吟唱，多種復(fù)雜音頻出現(xiàn)在同一作品中，互不干擾，并與畫(huà)面完美融合。

另一視頻博主Curious Refuge選擇用新的方式測(cè)試可靈2.6——用四組畫(huà)面和生成詞，分別交給Veo3.1和可靈2.6，分別是俯拍鏡頭，兩位騎士騎馬穿越森林；推鏡頭，食客在面館吃拉面；特寫(xiě)鏡頭，男子在帆船上獨(dú)白；固定中景鏡頭，男子吃掉餅干，并與寵物狗交流。

結(jié)論是，可靈2.6的表現(xiàn)令人意外。

在各項(xiàng)對(duì)比中，可靈2.6在多個(gè)測(cè)試成績(jī)上要超過(guò)Veo3.1，如場(chǎng)景生成、相機(jī)運(yùn)動(dòng)更符合生成詞等等。盡管在Veo 3.1的輸出結(jié)果中，也有部分表現(xiàn)出色，如音頻更為洪亮，但該博主的結(jié)論是，在這一輪測(cè)試中，可靈2.6略占上風(fēng)。

事實(shí)上，除音畫(huà)協(xié)同外，可靈2.6還重點(diǎn)強(qiáng)化了音頻質(zhì)量和語(yǔ)義理解。前者會(huì)讓各類(lèi)音效層次更豐富、接近真實(shí)世界的聲音效果；后者則讓AI對(duì)復(fù)雜劇情的理解能力更強(qiáng)，理解作者意圖。

更多音頻元素的融入，則讓AI視頻效果直逼現(xiàn)實(shí)。除了單人講話(huà)外，可靈2.6支持多人多白、不同風(fēng)格歌聲、環(huán)境音、物理音效，乃至多種音頻組合的混合音效。

這意味著，創(chuàng)作者只需要通過(guò)文本描述，就能還原一個(gè)物理世界多重環(huán)境音的層次感與空間感，獲得一個(gè)無(wú)需后期修改的完整作品。

02重構(gòu)工作流

過(guò)去的AI視頻模型，創(chuàng)作者的工序大概是這樣幾步：

創(chuàng)作者思考創(chuàng)意，確定文字腳本、畫(huà)面分鏡等方向——由AI生成文、圖等素材——進(jìn)一步通過(guò)素材生成視頻——后期生成配音和音效，并校對(duì)完成。

其中，后期制作是最為耗時(shí)的環(huán)節(jié)之一。對(duì)剪輯從業(yè)者來(lái)說(shuō)，無(wú)論是語(yǔ)音、效果音的制作和篩選，還是視頻的后期對(duì)軸，將音效與畫(huà)面逐幀對(duì)齊，這一工作對(duì)視頻質(zhì)量的影響極大，不僅依賴(lài)經(jīng)驗(yàn)，且過(guò)程繁瑣，需要在視頻工具、音頻工具中反復(fù)切換，

這讓可靈2.6的新功能重要性更為突出。在創(chuàng)作時(shí)，用戶(hù)只需輸入畫(huà)面、動(dòng)作、聲音的三要素精確描述，就能獲得一段高質(zhì)量的AI視頻。

這意味著，無(wú)論用戶(hù)是否有AI視頻創(chuàng)作經(jīng)驗(yàn)，都能在可靈2.6模型中體驗(yàn)無(wú)門(mén)檻的創(chuàng)作流程。

具體方法十分簡(jiǎn)單，在Web端可靈頁(yè)面中選擇視頻生成，文生視頻、圖生視頻均可選擇，在下方勾選“音畫(huà)同出”，并選擇品質(zhì)模式、畫(huà)面比例和產(chǎn)出條數(shù)，輸入生成詞或參考圖即可。

需要注意的是，要生成一條滿(mǎn)意的AI音畫(huà)直出視頻，用戶(hù)最好能對(duì)視頻畫(huà)面、動(dòng)作、聲音三要素進(jìn)行精確描述，如畫(huà)面細(xì)節(jié)，人物情緒、語(yǔ)速等。

03當(dāng)AI學(xué)會(huì)說(shuō)話(huà)

在與羅永浩的播客對(duì)談中，影視颶風(fēng)創(chuàng)始人TIM曾有這樣一番表述：在AI面前，創(chuàng)作者10年的努力都沒(méi)有價(jià)值。最多兩年，AI就能替換掉一個(gè)非常優(yōu)秀的剪輯師。

從產(chǎn)業(yè)場(chǎng)景來(lái)看，視頻AI正以閃電速度，從自媒體創(chuàng)意輔助者向全能的視頻生產(chǎn)力工具轉(zhuǎn)變。特別是可靈2.6將視頻模型音畫(huà)協(xié)同能力大幅提升后，一些過(guò)去依賴(lài)人工完成的創(chuàng)作工作，在AI面前將失去性?xún)r(jià)比優(yōu)勢(shì)。

例如在電商場(chǎng)景下，人工解說(shuō)的效率將難以匹敵AI。

未來(lái)的電商市場(chǎng)，一款產(chǎn)品的商品圖片，可以由商家自主拍攝上傳，商品賣(mài)點(diǎn)的口播，則可以由AI解說(shuō)完成，具體到使用場(chǎng)景，AI可以幫助商家輕易搭建任何高成本、電影級(jí)質(zhì)感的視頻背景，并清晰傳遞出產(chǎn)品優(yōu)勢(shì)。如果憑借人力完成，其成本無(wú)疑將是天文數(shù)字。

在廣告場(chǎng)景下，視頻AI則有更大的發(fā)揮空間。

在過(guò)去，一條一分鐘左右的廣告宣傳片制作周期可能要花費(fèi)數(shù)周，策劃、攝影、剪輯、配音、后期等工種則需要全程跟進(jìn)，確保最終產(chǎn)出符合創(chuàng)意規(guī)劃。

如今借助AI模型，創(chuàng)作者只需將創(chuàng)意交給AI來(lái)跑，借助文本生成、圖片生成等方式產(chǎn)出多個(gè)音畫(huà)協(xié)同的視頻作品并加以篩選，一些涉及到虛擬形象、特效等后期工作的效果，則能通過(guò)AI在幾分鐘內(nèi)實(shí)現(xiàn)。

比如文本描述“生成一些精靈，用手舉起目標(biāo)產(chǎn)品”“讓商品跨出國(guó)門(mén)，飛向世界各地”等，這不僅效率大幅提高，更降去了大部分成本。

可以說(shuō)，只要一個(gè)行業(yè)存在視頻內(nèi)容的產(chǎn)出需求，類(lèi)似的改變就將持續(xù)發(fā)生。如自媒體創(chuàng)作、直播、播音傳媒、音樂(lè)MV、影視制作等等。

一個(gè)肉眼可見(jiàn)的改變是，在短視頻平臺(tái)，部分經(jīng)史人文類(lèi)博主已經(jīng)率先應(yīng)用AI生成視頻素材，以節(jié)約創(chuàng)作時(shí)間。隨著可靈2.6發(fā)布，中文視頻模型音畫(huà)協(xié)同技術(shù)成熟，留給博主的創(chuàng)作空間還將進(jìn)一步拓展。

12-10

快手正悄悄地把可靈做成一個(gè)世界模型

12-10

小米進(jìn)軍AI教育？正在招聘多個(gè)相關(guān)崗位

12-10

TikTok占美國(guó)社交電商市場(chǎng)份額18%

12-10

歐盟：蘋(píng)果與谷歌合作推出跨平臺(tái)數(shù)據(jù)遷移功能，彰顯《數(shù)字市場(chǎng)法案》價(jià)值

12-10

暴漲700%！TrendForce 預(yù)測(cè)2026年人形機(jī)器人迎產(chǎn)業(yè)拐點(diǎn)，年出貨破5萬(wàn)臺(tái)

12-10

小米開(kāi)放多個(gè)“AI教育”崗位招聘

12-10

馬斯克放話(huà)：三周內(nèi)撤掉奧斯汀特斯拉Robotaxi的安全監(jiān)督員

12-10

小米17 Ultra首發(fā)全新徠卡主攝：號(hào)稱(chēng)是最強(qiáng)1英寸

12-10

vivo X300 Ultra影像配置曝光：超廣角采用X300 Pro主攝傳感器

12-10

蘋(píng)果谷歌攜手新突破：跨平臺(tái)數(shù)據(jù)遷移將迎無(wú)線(xiàn)便捷新時(shí)代

12-10

2025年AI大模型激戰(zhàn)正酣：谷歌阿里“覺(jué)醒”，中國(guó)模型“上桌”逐鹿全球

12-10

特斯拉人形機(jī)器人“審廠(chǎng)”引關(guān)注，量產(chǎn)曙光與挑戰(zhàn)并存，馬斯克押注能否成功？

12-10

Meta社交基本盤(pán)穩(wěn)健，成本攀升與AI競(jìng)爭(zhēng)下短期挑戰(zhàn)待解

12-10

麻省理工等機(jī)構(gòu)借助Apple Watch數(shù)據(jù)，打造AI模型實(shí)現(xiàn)健康狀況精準(zhǔn)預(yù)測(cè)

12-10

點(diǎn)擊查看更多 +

全站最新

TikTok Shop引爆黑五全球市場(chǎng)，內(nèi)容電商助力中國(guó)商品出海新跨越

AI算力新銳Unconventional AI獲33.56億融資，貝索斯等大佬押注未來(lái)算力革命

華為2012實(shí)驗(yàn)室新設(shè)基礎(chǔ)大模型部招募頂尖人才探索AI前沿領(lǐng)域

華為AEI：Agentic AI引領(lǐng)企業(yè)ICT運(yùn)維邁向自主智能新紀(jì)元

五菱星光560即將亮相預(yù)售，硬朗外觀(guān)搭配5座或7座，提供三種動(dòng)力選擇

哈弗H9穿越版12月11日登場(chǎng) 800mm涉水深度越野配置全面升級(jí)

熱門(mén)內(nèi)容

本欄最新

TikTok Shop引爆黑五全球市場(chǎng)，內(nèi)容電商助力中國(guó)商品出海新跨越

AI算力新銳Unconventional AI獲33.56億融資，貝索斯等大佬押注未來(lái)算力革命

華為2012實(shí)驗(yàn)室新設(shè)基礎(chǔ)大模型部招募頂尖人才探索AI前沿領(lǐng)域

小米三款新車(chē)計(jì)劃曝光：增程SUV、加長(zhǎng)款及高性能版，2026年或引爆市場(chǎng)

極石ADAMAS：1600km續(xù)航“方盒子”，是土豪新寵還是實(shí)力硬貨？

星途ET5西安上市：以新奢智電之姿開(kāi)啟家庭出行新體驗(yàn)

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類(lèi)資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶(hù)提供內(nèi)容聽(tīng)讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级

實(shí)測(cè)可靈2.6：給AI視頻上了一堂聲音課