百度旗下視頻生成模型迎來(lái)重大技術(shù)突破,其自主研發(fā)的“蒸汽機(jī)(文心專精)”系統(tǒng)首次實(shí)現(xiàn)AI長(zhǎng)視頻實(shí)時(shí)交互生成功能。通過(guò)流式視頻技術(shù)的創(chuàng)新應(yīng)用,該系統(tǒng)成功打破傳統(tǒng)AI視頻生成10秒左右的時(shí)長(zhǎng)桎梏,支持“無(wú)限時(shí)長(zhǎng)”內(nèi)容輸出,生成效率顯著領(lǐng)先國(guó)內(nèi)同類產(chǎn)品。
用戶操作流程得到深度優(yōu)化,僅需上傳單張圖片并輸入文字提示即可啟動(dòng)創(chuàng)作。系統(tǒng)獨(dú)創(chuàng)的實(shí)時(shí)預(yù)覽功能可完整展示模型推理過(guò)程,生成過(guò)程中用戶可隨時(shí)中斷操作,或在任意時(shí)間節(jié)點(diǎn)修改提示詞,對(duì)視頻劇情走向、畫面細(xì)節(jié)及轉(zhuǎn)場(chǎng)效果進(jìn)行動(dòng)態(tài)調(diào)整。這種交互模式將傳統(tǒng)AI視頻的“單向輸出”轉(zhuǎn)變?yōu)椤半p向共創(chuàng)”,為用戶提供“無(wú)限畫布”般的連續(xù)創(chuàng)作體驗(yàn)。
此次技術(shù)升級(jí)同步推出兩大創(chuàng)新功能:可交互數(shù)字人與開放世界動(dòng)態(tài)構(gòu)建系統(tǒng)。數(shù)字人支持多模態(tài)沉浸式互動(dòng),已應(yīng)用于智能導(dǎo)購(gòu)、在線教育、情感陪伴等多個(gè)場(chǎng)景;開放世界系統(tǒng)則賦予用戶完全操控權(quán),可在AI生成的虛擬游戲地圖、數(shù)字旅游景區(qū)及宇宙探索場(chǎng)景中進(jìn)行自由探索與交互。
自今年5月啟動(dòng)持續(xù)迭代計(jì)劃以來(lái),該模型已陸續(xù)實(shí)現(xiàn)音視頻同步生成、多角色對(duì)話生成、移動(dòng)端適配等關(guān)鍵技術(shù)突破。本次長(zhǎng)視頻實(shí)時(shí)交互功能的落地,不僅拓展了影視預(yù)演、互動(dòng)娛樂(lè)、個(gè)性化營(yíng)銷等領(lǐng)域的應(yīng)用場(chǎng)景,更推動(dòng)AIGC技術(shù)從基礎(chǔ)素材生成向深度內(nèi)容共創(chuàng)平臺(tái)轉(zhuǎn)型。


















