MiniMax公司近日正式發布新一代語音模型Speech 2.6,以"極速響應、高度擬人、智能交互"為核心特性,為語音技術領域帶來突破性進展。該模型在實時對話場景中實現250毫秒以內的超低延遲,達到接近人類自然對話的反饋速度,標志著語音交互技術邁入全新階段。
在語音表現力方面,Speech 2.6突破傳統技術局限,不僅具備全語音克隆能力,更通過Fluent LoRA情感引擎實現細膩的語氣變化。模型能夠精準捕捉聲音的音色特征,同時模擬出包含喜怒哀樂在內的自然情感表達,特別適用于陪伴型AI、有聲內容創作、播客制作及影視配音等場景。測試數據顯示,其情感表達自然度較前代提升47%,音色相似度達到98.6%。
多語言支持能力方面,Speech 2.6實現質的飛躍。模型內置40余種語言處理模塊,支持在同一語句中無縫切換不同語言,特別適用于跨國會議、全球化產品設計等跨語言交流場景。測試表明,中英混合語句的切換延遲控制在50毫秒以內,語言過渡自然流暢,完全滿足實時交互需求。
目前,Speech 2.6的API接口已全面開放,開發者可通過標準化接口快速集成。該模型支持云端部署和邊緣計算兩種模式,可根據不同應用場景靈活配置。技術文檔顯示,模型在保持高性能的同時,資源占用率較同類產品降低35%,特別適合移動端設備部署。











