在杭州舉辦的云棲大會上,阿里巴巴集團一口氣發布了七款人工智能大模型,其中最受矚目的當屬通義萬相Wan2.5-preview。這款全模態視覺生成模型首次實現了音畫一體的視頻生成功能,標志著阿里在多模態技術領域取得了重大突破。
據阿里云智能集團首席技術官周靖人介紹,通義萬相Wan2.5-preview采用了原生多模態架構,將文本、圖像、音頻等不同模態的數據統一處理。該模型集成了文生視頻、圖生視頻、文生圖和圖像編輯四大功能模塊,能夠生成電影級別的視頻內容,為用戶提供全感官的敘事體驗。
在實際測試中,Wan2.5-preview展現出了驚人的文本理解和推理能力。用戶只需輸入一段文字描述,模型就能自動生成與之匹配的語音和視頻畫面,且人物口型與語音完美同步。例如,當輸入一段關于白人女性拆禮物的詳細描述后,模型不僅生成了逼真的光影效果和人物表情,還精準還原了鋼琴聲和人物對話。
這款模型在視頻生成方面實現了多項升級。視頻時長從原來的5秒延長至10秒,支持24幀每秒的1080P高清輸出,能夠生成更完整的劇情故事。在操控性方面,模型對復雜指令的理解能力顯著提升,可以完成運鏡控制和人物變身等高級圖像編輯任務。
Wan2.5-preview的最大亮點在于其原生多模態架構。這是國內首個將聲音、圖像、文本作為統一語料進行訓練的模型,能夠在同一框架下完成多種任務。相比傳統非原生架構,這種設計避免了信息損耗和誤差累積,使模型具備了更強的跨模態推理和生成能力。
在圖像生成方面,該模型的美學質感和指令遵循能力都有顯著提升。它能夠根據復雜的詩歌描述生成意境匹配的圖片,在圖表生成和文字穩定性方面也表現出色。圖像編輯功能支持豐富的指令操作,同時保持視覺元素的一致性。
具體應用案例展示了模型的強大能力。在生成婚禮求婚場景時,模型不僅準確還原了人物動作和光影效果,還完美匹配了婚禮進行曲和新郎的對話。對于極快語速的RAP說唱,模型也能確保人物口型與語音同步,毫無破綻。
音效生成是Wan2.5-preview的另一大特色。在騎士騎馬和女子打網球的場景中,模型生成了馬蹄聲、裁判哨音、網球撞擊聲等環境音效,大大增強了視頻的真實感。對于跳舞場景,模型還能根據描述生成匹配的背景音樂,準確把握嘻哈風格的節奏特點。
目前,用戶可以通過阿里云百煉平臺調用API,或直接在通義萬相官網體驗這款模型。阿里提供的官方數據顯示,通義萬相系列模型已支持十多種視覺創作功能,累計生成了3.9億張圖片和7000萬個視頻,成為中國調用量最大的視覺生成模型之一。
在開源領域,通義萬相也取得了顯著成果。自今年2月以來,該系列已連續開源20多款模型,在開源社區和第三方平臺的下載量超過3000萬次,成為最受歡迎的視頻生成模型之一。隨著世界模型的面世,阿里在人工智能領域的布局將更加完善。











