阿里通義近日在語音技術領域接連推出多項創新成果,為開發者與用戶帶來更高效的解決方案。其最新開源的Fun-CosyVoice3-0.5B模型具備突破性的零樣本音色克隆能力,用戶僅需上傳一段時長超過3秒的音頻樣本,系統即可精準復刻該音色并生成全新語音內容。該模型支持本地化部署與二次開發,為個性化語音應用開發提供了靈活的技術底座。
在語音識別領域,通義同步推出輕量化模型Fun-ASR-Nano,通過將參數量壓縮至0.8B級別,顯著降低了推理計算成本。這款開源模型不僅保持了高精度識別能力,更支持開發者根據特定場景需求進行定制化微調,特別適合資源受限設備部署。經測試,該模型在普通消費級硬件上即可實現流暢運行。
針對復雜音頻環境挑戰,通義對Fun-ASR模型進行專項優化升級。升級后的版本在噪聲干擾場景下仍能保持93%的準確識別率,同時擴展了對音樂類內容的識別支持,包括歌詞文本轉寫和說唱節奏識別等特殊需求。這項改進使得語音識別技術得以拓展至音樂創作、影視制作等創意產業領域,為內容生產者提供智能化工具支持。








