先給大伙看個視頻吧。
很酷炫的大片場景對吧,特效和氛圍都很上頭。
但如果我告訴你,這片子是純 AI 生成的呢?AI 的飛速發展,讓肉眼好像已經分不清,特效和 AI 的區別了。
但估計大多數人跟我一樣,都是光看不練,或者說練過,但《從入門到入土》。
原因就一句話:這玩意太容易勸退了。
想要完成度高一點,就得自己部署個模型,搞點穩定可控的 Workflow 。但那一堆密密麻麻的參數,普通人是調不明白的。
想隨便玩玩的,可以上在線網站,但效果相當于抽卡,每抽一發就要花錢。像之前網上大家刷到的 ASMR 切水果,大多都是谷歌的 Veo 之類生成的,國內的大伙也很難用上。
被折磨了許久后,世超最后的答案,是一個大伙耳熟能詳的東西——豆包。
你別不信,這濃眉大眼的豆包悄悄進化了。最近,它的視頻模型更新到了 Seedance 1.5 pro,而且支持了音畫同步,效果媲美谷歌。用完后我只想說,想自己搓 AI 視頻的朋友們,好日子來了。
具體有多強,還是看世超表演吧。
大伙都知道,以前國內大部分視頻模型只能演默片,而現在,豆包的聲音和畫面已經配合得出神入化了。
而且我感覺最突出的特征,是它的理解力,就是不用寫什么詳細提示詞,它會自動理解畫面和文字,生成你想配的聲音。
首先出場的是我們的老演員,火鍋。
我們丟給它一張火鍋近照,并直接跟豆包講:“讓圖中的金毛進入水坑跑一圈。”
它很好地理解了我的需求,畫面里的金毛和水的效果都沒啥問題,還很好地區分了在地上和水里的腳步聲,甚至知道是戶外,配上了鳥叫,整個一生機勃勃萬物競發,理解力沒得說吧。
然后我們用同樣的提示詞,發給谷歌的 Veo 來做了個對比。講真,世超是覺得大差不差的,二者的物理效果和音效都很逼真,甚至俺覺得豆包更還原了手機麥克風的錄音感。
為了證明不是詐胡,我又傳了一張雙人演奏的圖,我也沒告訴它哪個是吉他,哪個是貝斯。
結果出來,還真是兩種動靜都有,甚至還加上了鼓點。差友們可以測一下自己的聽力和耳機的表現,看看能不能聽見貝斯。
除了圖生視頻,咱還可以直接不給圖,讓豆包文生視頻,這考驗的就是豆包的想象力了。
我讓它生成了一段像素風格游戲畫面,哥們小的時候巨愛玩。
結果效果真的很逼真,甚至感覺比我記憶里的游戲還好,起飛和落地的碰撞粒子效果都做出來了,背景音樂也是經典的 8-bit 風格。
8-bit 像素藝術風格,勇者在夕陽背景下從左往右奔跑跳躍,帶著泥土的粒子特效,畫面帶有復古 CRT 顯示器的掃描線效果。動作流暢,配合復古 8-bit 電子游戲音樂(Chiptune)與跳躍音效,音畫節奏緊密協同,完美還原紅白機時代的經典游戲畫面質感。
2D 游戲有了,3A 大作呢?世超也試了一下,傳給它一張黑神話的游戲截圖。
結果不僅畫面不錯,一致性也保持得很好。我們讓猴哥乘上了筋斗云向天上飛去,猴哥的模型我目測來看是沒怎么崩,而且還有加分項,配上了史詩級的音樂,豆老師在音樂細胞這塊可真沒得說啊。。。
為了考驗豆包的對人臉的一致性,我們又請出了鬼畜區頂流,跟諸葛亮對噴的王朗,不過這次演的是王朗認錯人的戲碼。
這人物的小表情和小動作都刻畫得很有味道啊,看見對方卻不認識的短暫遲疑,短暫思索,還有認錯人之后的尷尬解圍,表演得都非常自然,臉部的一致性也保持得很好。
王朗眉頭一皺,發現事情并不簡單。
所以呢,整了這么多活,意思是只能發發小視頻咯,能不能真有專業電影級的用途呢?
能的,能的。眾所周知,影片不僅要畫面精致,還得有鏡頭語言和臺詞吧。
而這些,豆包真的都能拿下。
我找了張廢墟中的男人的圖,讓它 Cos 一下面壁者羅輯,然后讓攝像頭繞著羅輯轉,模擬智子視角。
豆包的鏡頭還是很穩的,人物的臉也保持了原有的特征,再加上這性感氣泡音,三體人真的不是被顏值折服的嗎?
而且,你也不需要有大導演級別的用詞,什么推拉搖移跟升甩降,你甚至直接可以說,我就想要個有故事感的鏡頭。。
于是,它就把鏡頭緊緊鎖在金毛身上了,因為它清楚,這是主角兒。
而世超最喜歡的,其實是這次模型的面部情感表達。我嘰里咕嚕瞎敲了一堆提示詞給它,什么心酸勞累,什么重燃希望,全喂給它了。
都市風格,中年東亞女性,特寫捕捉她的臉上的勞累苦楚,隨著夕陽灑在臉上,神情轉為充滿希望的微表情變化。人物皮膚具備真實膠片質感,淺景深背景虛化。比例 16:9,時長 10s,模型 1.5 Pro。
結果它居然表達得很好,真就給我了一種鏡頭里的人活了的感覺,眼里充滿了這些年的辛酸與淚水。
之前說外國人的 AI 很難駕馭中文,那豆包的外語怎么樣呢?
我管你這那的,先發一張美少女試試。
于是我發過去這張圖片,然后讓她說了一句 “ 組一輩子的樂隊吧 ”。
然后復刻得非常成功,BGM 也是很有日本動漫的風格。
最讓我驚艷的是,它甚至還能生成,帶對話,全外語,且對上口型的動畫片段。
更恐怖的是,連音色都大差不差,如果忽略后面有些 bug 的文字,我很難不認為這是原片。
幫我生成一個視頻:Shot 1:中景 蟹堡王廚房海綿寶寶雙手緊握鏟子,眼神充滿決心。海綿寶寶(聲音發顫):“i want to bring joy to others”Shot 2:特寫 章魚哥半側臉他斜眼看著海綿寶寶,嘴角下撇。章魚哥(低沉譏諷):“you can't even fool yourself”。比例 16:9,時長 10s,模型 1.5 Pro。
啥意思,老二次元的春天真的來了?以后想看什么番外都能自己搓,那叫什么旮旯 game 的還得自己攻略,不好不好。
講道理,世超上網的時候,經常看見豆包,覺得它已經夠火夠強了,結果這次,憋了個更大的。測完這一圈,我甚至感覺,這是豆包給自己加冕的冠軍拼圖了。
文字能寫、圖片能畫、音樂能搓,現在再加上個音畫同步的視頻模型,也算是進化成六邊形戰士了。
之前咱總覺得國外的月亮圓,Sora、Veo 啥的遙遙領先,現在看來,豆包不僅趕上來了,還更懂咱們中國人的點。
以后,咱們樂子人爽了,評論區到處都是會動會說話的表情包。打工人估計也笑了,以前自己親自拍的樣片,現在給AI發幾句指令就能做。
所以趁著人還不多,大伙可以趕緊去試用起來了,有什么抽象的案例,歡迎大伙給世超發過來,我倒要看看差友的腦子里裝的都是什么。。









