“多人對話音視頻一體化生成”大模型百度蒸汽機(MuseSteamer)迎來重大技術突破,其最新版本正式推出通用AI長視頻生成功能,用戶可借此生成任意時長的AI視頻內容,徹底打破傳統AI視頻生成5秒、10秒的時長限制。
此次升級的核心亮點在于兩大技術突破:其一,通過流式生成技術實現視頻“無限”時長生成,用戶輸入一張參考圖和文本描述即可生成電影級質感的長視頻;其二,首創生成過程中的交互式創作模式,用戶可隨時暫停生成并提交新的提示詞(prompt),動態調整后續劇情走向。
在技術實現層面,百度蒸汽機采用自回歸擴散模型,結合幀級噪聲獨立控制與動態時間步調度策略,突破傳統擴散模型在長視頻生成中的性能瓶頸。同時,依托商業體系強大的工程優化能力,通過模型參數壓縮、窗口注意力機制優化等手段,將推理耗時降至近乎實時水平,確保長視頻生成的流暢性與效率。
據項目負責人介紹,升級后的模型已實現理論上的無限時長視頻生成能力,用戶僅需輸入基礎素材即可生成包含多人對話、精準口型同步的復雜視頻內容。例如,在官方演示中,模型成功生成30秒及超1分鐘的連貫視頻片段,畫面質量與敘事邏輯均達到專業水準。
9月25日,百度商業體系商業研發總經理劉林與知名編劇田博通過直播連麥,首次對外解析技術細節。劉林強調,此次升級不僅解決了AI視頻生成依賴首尾幀控制續寫的局限,更通過“生成中可交互”功能賦予用戶創作主導權。田博則指出,AI視頻生成技術僅用一年時間便完成電影行業50年的技術演進,為編劇與內容創作者開辟了前所未有的想象空間。
從應用場景看,AI長視頻生成技術顯著降低了視頻創作門檻,助力個人創作者產出更完整、優質的內容,同時為企業用戶、影視及廣告行業提供高效低成本的解決方案。目前,該技術已廣泛應用于百度客戶的營銷創意中,知名視效指導姚騏曾使用蒸汽機2.0制作科幻短片《歸途》,將制作成本壓縮至數百元,驗證了其商業化潛力。
作為全球首個中文音視頻一體化生成模型,百度蒸汽機自今年3月首發以來持續迭代:5月登頂VBench-I2V圖生視頻榜首;7月推出Turbo版模型及C端創作平臺“繪想”,實現畫面、音效與人聲臺詞的協同創作;8月完成音視頻一體化升級,支持多人有聲視頻生成;如今再次突破時長限制,成為行業首個具備“無限”生成能力的通用AI視頻模型。
數據顯示,蒸汽機Turbo版上線兩周注冊用戶量突破20萬,單小時任務提交量達1.8萬次,累計生成內容超200萬條。據透露,該模型將于10月中旬進一步升級,新增實時交互長視頻生成功能,涵蓋可交互數字人、VR/AR視頻內容及動態游戲世界生成能力,持續推動AI視頻技術邊界拓展。











