美國(guó)語(yǔ)音生成領(lǐng)域迎來(lái)重要突破——初創(chuàng)企業(yè)Cartesia正式推出新一代語(yǔ)音模型Sonic-3,并宣布完成1億美元戰(zhàn)略融資,英偉達(dá)成為核心投資方。這款采用非Transformer架構(gòu)的模型,憑借其低延遲特性在實(shí)時(shí)語(yǔ)音交互領(lǐng)域引發(fā)關(guān)注,數(shù)千家企業(yè)已將其應(yīng)用于每月數(shù)百萬(wàn)次的對(duì)話處理。
技術(shù)團(tuán)隊(duì)構(gòu)成堪稱"學(xué)術(shù)全明星":由5位斯坦福AI實(shí)驗(yàn)室研究員創(chuàng)立的Cartesia,其核心成員包括Mamba架構(gòu)主要開發(fā)者Albert Gu、前谷歌大腦工程師Brandon Yang,以及擁有斯坦福與卡內(nèi)基梅隆雙重學(xué)術(shù)背景的CEO Karan Goel。團(tuán)隊(duì)將狀態(tài)空間模型(SSM)研究成果轉(zhuǎn)化為商業(yè)應(yīng)用,Albert Gu更憑借技術(shù)貢獻(xiàn)入選《時(shí)代》雜志2024年全球影響力人物榜單。
與傳統(tǒng)Transformer模型不同,Sonic-3采用的SSM架構(gòu)通過持續(xù)理解對(duì)話脈絡(luò)實(shí)現(xiàn)高效預(yù)測(cè)。實(shí)測(cè)顯示,該模型中文生成響應(yīng)時(shí)間僅2秒,雖流暢度待提升,但英文表現(xiàn)已達(dá)自然水準(zhǔn),紀(jì)錄片旁白測(cè)試中幾乎無(wú)法分辨AI痕跡。其90毫秒的模型延遲與190毫秒內(nèi)端到端響應(yīng),使系統(tǒng)躋身全球最快實(shí)時(shí)語(yǔ)音AI之列。
功能層面,Sonic-3支持42種語(yǔ)言與500余種音色選擇,中文提供10種聲線,英文細(xì)分為11種地域口音。通過API參數(shù)與SSML標(biāo)簽,用戶可精確控制音量、語(yǔ)速及情感表達(dá),甚至實(shí)現(xiàn)笑聲、語(yǔ)調(diào)等微妙情感轉(zhuǎn)換。新增的語(yǔ)音克隆功能支持微調(diào),使生成語(yǔ)音更貼近參考原聲,自動(dòng)緩沖技術(shù)則顯著提升實(shí)時(shí)交互的流暢性。
商業(yè)應(yīng)用方面,Cartesia構(gòu)建的企業(yè)級(jí)平臺(tái)集成文本轉(zhuǎn)語(yǔ)音(Sonic)與語(yǔ)音轉(zhuǎn)文本(Ink)模型,支持客戶構(gòu)建具備復(fù)雜任務(wù)處理能力的語(yǔ)音Agent。ServiceNow等企業(yè)已將其用于客戶支持、日程管理等場(chǎng)景,產(chǎn)品副總裁Ravi Krishnamurthy評(píng)價(jià)稱:"SSM架構(gòu)為企業(yè)級(jí)應(yīng)用帶來(lái)了前所未有的速度與質(zhì)量。"
融資進(jìn)程顯示市場(chǎng)高度認(rèn)可:2024年12月獲Index Ventures領(lǐng)投的2700萬(wàn)美元種子輪融資后,僅隔3個(gè)月便完成6400萬(wàn)美元A輪融資。此次1億美元戰(zhàn)略融資將加速技術(shù)迭代,在MiniMax、ElevenLabs等競(jìng)爭(zhēng)對(duì)手環(huán)伺的AI音頻生成賽道,Cartesia正以SSM架構(gòu)開辟差異化競(jìng)爭(zhēng)路徑。











