百度旗下視頻生成模型“蒸汽機(jī)”近日完成關(guān)鍵技術(shù)升級,首次在行業(yè)內(nèi)實(shí)現(xiàn)AI長視頻實(shí)時(shí)交互生成功能。該模型突破傳統(tǒng)AI視頻10秒左右的時(shí)長限制,通過流式視頻技術(shù)革新,將內(nèi)容生成模式從單向輸出轉(zhuǎn)變?yōu)殡p向共創(chuàng),重新構(gòu)建了AIGC內(nèi)容創(chuàng)作的技術(shù)框架。
核心技術(shù)層面,升級后的模型采用流式生成架構(gòu)與動態(tài)緩沖區(qū)管理機(jī)制,結(jié)合幀級噪聲獨(dú)立控制與歷史參考幀優(yōu)化算法,理論上可支持無限時(shí)長的視頻生成。在畫面連貫性測試中,西部牛仔風(fēng)格視頻的復(fù)雜運(yùn)鏡場景(如人物行走、鏡頭搖移)實(shí)現(xiàn)了單鏡頭無縫銜接,較傳統(tǒng)首尾幀續(xù)寫技術(shù)的流暢度提升顯著。生成效率方面,經(jīng)過工程優(yōu)化的模型推理速度超越國內(nèi)同類產(chǎn)品,較Vidu 2.0等模型“10秒生成4秒視頻”的效率實(shí)現(xiàn)指數(shù)級突破。
交互體驗(yàn)革新是此次升級的核心亮點(diǎn)。用戶僅需上傳單張圖片與基礎(chǔ)提示詞即可啟動生成流程,過程中可隨時(shí)暫停并修改提示詞,實(shí)時(shí)調(diào)整視頻劇情走向、畫面風(fēng)格及轉(zhuǎn)場效果。例如在賽車動畫生成場景中,用戶可通過修改提示詞實(shí)現(xiàn)賽車順序調(diào)整、背景切換等動態(tài)操作,全程無需重新渲染。這種“無限畫布”創(chuàng)作模式,使AI視頻工具從被動素材生成器升級為實(shí)時(shí)協(xié)作的創(chuàng)意伙伴。
同步推出的兩大創(chuàng)新功能進(jìn)一步拓展應(yīng)用場景:其一為可交互數(shù)字人,具備雙向互動與情感識別能力,可應(yīng)用于AI導(dǎo)購、教育陪伴等領(lǐng)域。在導(dǎo)購場景中,數(shù)字人能根據(jù)用戶提問實(shí)時(shí)調(diào)整產(chǎn)品演示邏輯;其二為開放世界動態(tài)構(gòu)建系統(tǒng),允許用戶在AI生成的游戲地圖、虛擬旅游景點(diǎn)等環(huán)境中自由探索,場景細(xì)節(jié)隨交互行為實(shí)時(shí)渲染,解決了傳統(tǒng)預(yù)生成內(nèi)容僵化的問題。
自今年5月啟動迭代以來,“蒸汽機(jī)”模型已陸續(xù)實(shí)現(xiàn)音視頻一體化生成、多人對話生成、移動端適配等功能。此次長視頻實(shí)時(shí)交互能力的突破,將AI視頻的應(yīng)用場景從影視預(yù)演、互動娛樂延伸至個(gè)性化營銷等領(lǐng)域,推動AIGC技術(shù)向內(nèi)容共創(chuàng)平臺演進(jìn)。百度商業(yè)研發(fā)團(tuán)隊(duì)負(fù)責(zé)人指出,長時(shí)一致性與實(shí)時(shí)交互技術(shù)的融合,標(biāo)志著AI內(nèi)容生產(chǎn)從素材生成向協(xié)同創(chuàng)作的范式轉(zhuǎn)變。
行業(yè)觀察人士認(rèn)為,該技術(shù)將加速AI視頻在虛擬社交、沉浸式娛樂等領(lǐng)域的商業(yè)化落地,通過降低創(chuàng)作門檻激發(fā)用戶創(chuàng)意潛能,為內(nèi)容產(chǎn)業(yè)注入新的發(fā)展動能。











