在2025杭州云棲大會上,阿里巴巴一連發布七款人工智能大模型,其中通義萬相Wan2.5-preview憑借音畫一體視頻生成能力引發行業震動。這款被阿里稱為"最強全模態視覺生成模型"的新品,首次實現文本、圖像、音頻多模態輸入與高清視頻輸出的無縫銜接,標志著視覺生成技術邁入電影級全感官敘事時代。
技術架構層面,Wan2.5-preview采用原生多模態訓練框架,將聲音、圖像、文本作為統一語料進行模型訓練。阿里云智能CTO周靖人透露,這種創新架構使模型具備跨模態推理能力,例如可根據充滿隱喻的詩歌文本生成意境匹配的視覺畫面。在圖像生成質量上,模型支持24幀/秒的1080P高清輸出,運鏡指令遵循能力顯著提升,可實現人物變身等復雜編輯任務。
實際測試顯示,該模型在視頻生成時長、畫質、操控性三方面取得突破。單次生成視頻時長從5秒延長至10秒,支持更完整的劇情敘事。在"白人女性拆禮物"場景測試中,模型精準還原了鋼琴聲、環境音效與人物對話的時空同步,連木柴燃燒的噼啪聲都清晰可辨。更復雜的"婚禮求婚"場景里,新郎的誓言與婚禮進行曲的節奏配合毫無違和感,光影效果達到電影級水準。
多模態交互能力成為最大亮點。用戶輸入"VR玩家說唱"提示詞時,模型不僅生成充滿未來感的虛擬競技場畫面,更將Rap歌詞的每個音節與人物口型精確匹配,即便語速極快也看不出破綻。在"深海特工"測試案例中,模型通過"圖+文"輸入生成了原本不存在的虎鯊背鰭,同時合成聲吶掃描音、水流動響等12種環境音效,構建出沉浸式深海場景。
運動場景音效生成能力同樣驚艷。在"騎士騎馬"測試中,模型精準捕捉馬蹄騰空、落地的力學節奏,同時合成遠處裁判哨音與風聲的層次變化。"女子網球"場景則還原了球拍破風聲、球網撞擊聲與觀眾低語的立體聲場,這些細節使AI生成內容幾乎無法與實拍視頻區分。
音樂生成領域,模型展現出對場景氛圍的深度理解。當輸入"黑人女子街舞"提示詞時,自動生成的鼓點與貝斯旋律完美契合嘻哈風格,背景人群的掌聲節奏與舞者動作形成巧妙呼應。技術團隊透露,這種語境感知能力源于多模態預訓練架構對海量視聽數據的深度解析。
目前用戶可通過阿里云百煉平臺調用API,或在通義萬相官網直接體驗。數據顯示,該模型家族已支持文生圖、圖生視頻等10余種創作模式,累計生成3.9億張圖片和7000萬個視頻,成為中國調用量最大的視覺生成平臺之一。自今年2月開源以來,20余款模型在社區的下載量突破3000萬次,持續領跑開源視頻生成領域。











