阿里巴巴通義大模型宣布,其 “百聆” 系列語(yǔ)音模型迎來(lái)了重大升級(jí),并正式開(kāi)源。此次更新的兩款語(yǔ)音模型,能夠在僅需三秒的錄音后,實(shí)現(xiàn)無(wú)縫切換至多達(dá)九種語(yǔ)言和十八種方言,包括普通話(huà)、粵語(yǔ)、日語(yǔ)、英語(yǔ)等,同時(shí)還可以模擬多種情感如開(kāi)心和憤怒。
在這次升級(jí)中,F(xiàn)un-CosyVoice3模型得到了顯著改善。模型的首包延遲降低了50%,大幅提升了中英混說(shuō)的準(zhǔn)確率。模型的音色克隆能力得到了增強(qiáng),用戶(hù)只需提供一段三秒以上的錄音,便能復(fù)刻出相應(yīng)的音色并合成新語(yǔ)音。此功能的開(kāi)發(fā)使得實(shí)時(shí)語(yǔ)音助手、直播配音和無(wú)障礙閱讀等場(chǎng)景變得更加高效和便捷。
Fun-ASR 模型的能力同樣得到了提升,噪聲環(huán)境下的準(zhǔn)確率達(dá)到了93%。這一模型不僅支持歌詞和說(shuō)唱的識(shí)別,還可以進(jìn)行多語(yǔ)言自由混說(shuō),覆蓋多種中文方言與口音。為了提升用戶(hù)體驗(yàn),流式識(shí)別的首字延遲已降低至160毫秒,大幅提升了語(yǔ)音交互的流暢性。
這兩款模型均支持本地部署與二次開(kāi)發(fā),開(kāi)發(fā)者可以根據(jù)自己的需求進(jìn)行定制化調(diào)整。開(kāi)源地址也已公布,用戶(hù)可以前往相關(guān)平臺(tái)體驗(yàn)和使用這兩款語(yǔ)音模型,進(jìn)一步推動(dòng)語(yǔ)音技術(shù)在各個(gè)領(lǐng)域的應(yīng)用。
GitHub:https://github.com/FunAudioLLM/CosyVoice
劃重點(diǎn):











