在TechCrunch Disrupt2025大會(huì)上,AI語(yǔ)音領(lǐng)域的領(lǐng)軍企業(yè)ElevenLabs的聯(lián)合創(chuàng)始人兼首席執(zhí)行官馬蒂·斯塔尼斯?jié)煞蛩够∕ati Staniszewski)提出一個(gè)引人注目的觀點(diǎn):AI語(yǔ)音模型將在兩三年內(nèi)步入“商品化”階段。他指出,盡管短期內(nèi)模型性能仍是核心競(jìng)爭(zhēng)力,但長(zhǎng)期來(lái)看,主流語(yǔ)言和通用音色領(lǐng)域的模型差異將逐步縮小。
面對(duì)“模型同質(zhì)化趨勢(shì)下,為何仍需大規(guī)模投入研發(fā)”的疑問(wèn),斯塔尼斯?jié)煞蛩够寡裕?dāng)前模型仍是技術(shù)壁壘的核心。“如果AI語(yǔ)音不夠自然流暢,用戶體驗(yàn)就無(wú)從談起。”他強(qiáng)調(diào),ElevenLabs在模型架構(gòu)上的創(chuàng)新,如情感表達(dá)和多語(yǔ)言韻律建模,正是其保持領(lǐng)先地位的關(guān)鍵。然而,公司并未止步于此,而是早已為后模型時(shí)代布局。
斯塔尼斯?jié)煞蛩够嘎叮珽levenLabs的長(zhǎng)期戰(zhàn)略并非局限于成為“模型供應(yīng)商”,而是致力于構(gòu)建“AI+產(chǎn)品”的完整生態(tài)。他以蘋果通過(guò)軟硬件協(xié)同定義智能手機(jī)為例,說(shuō)明ElevenLabs希望以自研模型為驅(qū)動(dòng),落地高價(jià)值應(yīng)用場(chǎng)景,從而建立真正的競(jìng)爭(zhēng)優(yōu)勢(shì)。
談及未來(lái)1-2年的技術(shù)趨勢(shì),斯塔尼斯?jié)煞蛩够A(yù)測(cè),單一模態(tài)的語(yǔ)音模型將加速向多模態(tài)融合發(fā)展。“未來(lái)的AI將同時(shí)生成音頻和視頻,或在對(duì)話中實(shí)時(shí)聯(lián)動(dòng)大語(yǔ)言模型和語(yǔ)音引擎。”他以Google最新發(fā)布的Veo3視頻生成模型為例,指出跨模態(tài)協(xié)同已成為技術(shù)前沿。為此,ElevenLabs正積極與第三方模型和開(kāi)源社區(qū)合作,探索將其音頻能力嵌入更廣泛的AI生態(tài),打造沉浸式虛擬人、智能客服等創(chuàng)新應(yīng)用。
斯塔尼斯?jié)煞蛩够J(rèn)為,模型商品化并不意味著行業(yè)衰退,而是價(jià)值重心的轉(zhuǎn)移。他解釋道:“未來(lái),企業(yè)會(huì)根據(jù)不同場(chǎng)景選擇模型——客服用一個(gè),游戲配音用另一個(gè),教育講解再用一個(gè)。可靠性、可擴(kuò)展性和場(chǎng)景適配性將比單純的音質(zhì)更重要。”因此,ElevenLabs正加強(qiáng)API平臺(tái)、開(kāi)發(fā)者工具鏈和行業(yè)解決方案的建設(shè),確保客戶能快速將高質(zhì)量語(yǔ)音集成到業(yè)務(wù)中。
在語(yǔ)音AI從技術(shù)展示轉(zhuǎn)向?qū)嵱寐涞氐年P(guān)鍵階段,ElevenLabs的戰(zhàn)略方向清晰而務(wù)實(shí):短期聚焦模型優(yōu)化,長(zhǎng)期深耕產(chǎn)品創(chuàng)新。當(dāng)行業(yè)逐漸形成“模型即服務(wù)”的共識(shí)時(shí),真正的贏家或許不是參數(shù)最多的企業(yè),而是最懂用戶需求、最能將AI無(wú)縫融入人類交互場(chǎng)景的公司。正如斯塔尼斯?jié)煞蛩够裕骸白詈玫膽?yīng)用場(chǎng)景,誕生于產(chǎn)品與AI的深度融合。”而ElevenLabs,正努力成為這一融合的引領(lǐng)者。







