面壁智能近日正式推出并開源了其音頻生成模型VoxCPM的1.5版本,該版本在采樣率、生成效率及穩定性方面實現了顯著提升。此次升級聚焦于優化聲音克隆效果與音頻生成質量,為用戶提供更專業的音頻處理解決方案。
在核心性能方面,VoxCPM 1.5將AudioVAE模塊的采樣率從16kHz提升至44.1kHz,這一改進使模型能夠基于高質量音頻源生成更細膩、更逼真的聲音克隆效果。例如,在語音合成場景中,升級后的模型可精準捕捉聲紋特征,還原出包含更多細節的音頻內容,滿足專業領域對音質的高標準需求。
生成效率方面,新版本通過算法優化實現了速度與質量的雙重突破。當前模型僅需6.25個token即可生成1秒音頻,較前代版本效率提升一倍。這一改進不僅縮短了長文本音頻的生成時間,更在保持原有速度優勢的基礎上,顯著提升了輸出音頻的清晰度與連貫性,尤其適用于有聲讀物、播客制作等需要大量語音輸出的場景。
針對長期存在的技術痛點,VoxCPM 1.5在穩定性方面取得關鍵進展。通過改進模型架構與訓練策略,新版本有效減少了音頻偽影問題,優化了長文本音頻的生成效果。在實際測試中,即使處理超過10分鐘的連續語音內容,系統仍能保持音色統一、節奏平穩,大幅降低了后期人工修正的工作量。
此次開源的1.5版本延續了面壁智能開放共享的技術理念,為開發者社區提供了完整的模型框架與訓練代碼。研究人員可基于該版本進一步探索音頻生成技術的邊界,企業用戶則能通過本地化部署滿足定制化需求,推動語音交互、數字內容創作等領域的創新應用。











