通義千問近日對其語音合成模型Qwen3-TTS進行了全面升級,新版本在音色多樣性、語言覆蓋范圍及方言支持方面實現顯著突破,用戶可通過Qwen API直接調用相關功能。此次升級標志著該模型在跨語言語音生成領域的技術競爭力進一步提升。
據技術團隊披露,升級后的Qwen3-TTS內置超過49種精細化音色庫,涵蓋不同性別、年齡層次及地域特征,甚至支持虛擬角色定制化語音輸出。這種設計使其能夠適應有聲讀物、智能客服、影視配音等多元場景需求,為內容創作者提供更豐富的表達維度。
在語言支持層面,模型突破傳統多語種框架,除中文、英語、日語、韓語等10種主流語言外,還特別強化了方言生成能力。閩南語、粵語、四川話等方言的語音合成效果經過專項優化,在保持地域特色的同時確保發音準確度。技術測試數據顯示,其平均詞錯誤率(WER)指標優于MiniMax、ElevenLabs及GPT-4o-Audio-Preview等同類型產品。
開發團隊強調,此次升級重點解決了跨語言語音合成中的韻律銜接問題,通過改進聲學模型架構,使不同語言間的切換更加自然流暢。特別是在中英混合語句處理上,模型能夠精準把握兩種語言的發音重音與語調變化,顯著提升多語言場景下的用戶體驗。











