快手旗下可靈AI近日宣布,其首個音畫同出模型已正式投入使用。這一創新模型突破了傳統內容生成模式,能夠在單次操作中同步生成畫面、自然語音、匹配音效及環境氛圍,實現視聽元素的深度融合。
該模型提供兩種核心創作方式:其一為文生音畫,用戶僅需輸入簡短文字描述,即可生成包含完整音視頻內容的作品;其二為圖生音畫,通過靜態圖片輸入,系統可賦予畫面動態效果并同步生成語音,使靜態內容“活”起來。
技術團隊介紹,新模型通過多模態協同算法,確保語音節奏、畫面運動與音效環境的高度匹配。例如在生成人物對話時,唇形動作、語音語調與背景音效均能實現自然銜接,避免傳統AI生成內容中常見的音畫割裂問題。
應用場景方面,該模型覆蓋四大領域:單人獨白場景適用于商品展示、生活記錄、新聞播報等;旁白解說模式可支持賽事解說、紀錄片配音等復雜需求;多人對白功能滿足訪談節目、短劇創作等交互場景;音樂表演模塊則支持獨唱、合唱及樂器演奏等多樣化表現形式。
開發團隊透露,模型訓練過程中采用了超百萬小時的音視頻數據,涵蓋不同語言、口音及場景類型。通過自適應學習機制,系統能夠根據用戶輸入的文本風格自動調整語音特征,在保持自然度的同時實現個性化表達。








