一段小女孩與AI玩具深情告別的視頻在網絡上迅速走紅,引發了人們對人機情感交互的廣泛關注。視頻中,小女孩對一個具有語音功能的AI玩具依依不舍,這場跨越人與機器的離別,展現了對話式AI正在悄然融入人類情感世界的現實。
當前,許多AI交互仍停留在"短信"時代,用戶通過輸入框提出問題,AI以文字形式回復。然而,人類溝通中,語言內容僅占7%的信息量,聲音傳遞占38%,表情等身體語言則高達55%。這一"梅拉賓法則"揭示了多模態交互的重要性。正如智能手機不僅依賴通信功能,更需要觸控屏和傳感器的突破,AI交互領域同樣需要技術革新。
多模態大模型的發展正在推動AI從"生成"向"交互"演進。實時交互能力的普及成為下一個關鍵方向,計算機通過多模態LLM技術實現了類人的實時語音對話能力。這種突破使得"具有活人感"的對話式AI開始爆發,2024年因此被視為智能體和對話式AI的元年。
10月31日,聲網與RTE開發者社區聯合主辦的Convo AI&RTE 2025大會在上海召開。這場第十一屆實時互聯網大會吸引了眾多開發者參與,現場座無虛席。大會覆蓋了實時互聯網和對話式AI全生態,推出20余場論壇及周邊活動,涵蓋技術開發、趨勢洞見、行業觀察、創業投資等多個維度。
自2015年聲網將RTC開發者大會引入中國以來,這場年度盛會已連續舉辦十余屆。從最初的WebRTC/RTC底層技術交流,到2020年升級為"RTE實時互聯網大會",議題擴展至"實時互動"的廣闊場景。如今,大會已成長為全球規模最大的實時互聯網盛會,累計覆蓋200多個行業場景,影響超過200萬開發者。
聲網CEO趙斌在大會上指出,對話式AI正在經歷從"正常對話"到"聲情并茂"的關鍵轉變。2024年第三季度,聲網的對話式AI用量環比增長151%,年度服務分鐘數首次突破1萬億。ElevenLabs黑客松在短時間內孵化了300多個創業項目,開源的TEN framework和TEN Agent多次登頂GitHub排行榜。
全球科技巨頭紛紛布局對話式AI領域,相關創業公司呈現爆發式增長。方舟投資的報告顯示,AI陪伴賽道可能從3000萬美元增長至700-1500億美元,增長潛力高達5000倍。這種增長不僅體現在市場規模上,更反映在應用量和活躍度的持續提升中。
在應用場景方面,情感陪伴、智能硬件和在線教育將率先實現對話式AI的規模化落地。聲網推出的對話式AI開發套件R1-4G,基于紫光展銳8910高性能AI芯片,融合4G通信功能,幫助開發者快速集成硬件對話能力。該套件優化了音視頻通話與4G適配,實現650ms延遲和340ms打斷響應。
對話式AI模型評測平臺3.0新增了價格預估計算器功能。開發者可以根據實際業務需求預設人機對話比例,平臺將自動計算總價和各模塊單價,幫助開發者更好地控制成本。這一工具解決了行業面臨的低延遲響應、自然打斷、上下文管理等技術難題。
在實時交互與場景理解方面,對話式AI已取得突破性進展。高擬人度實時翻譯在特定場景實現實用化,車載智能助理提升駕駛體驗,AI輔助生活拓展殘障人士的邊界。這些應用表明,AI實時交互正在創造巨大的市場機會。
OpenAI去年5月推出的GPT-4o語音-視覺-文本實時多模態技術,成為行業新共識。隨后推出的Realtime API公測,使聲網等首批集成伙伴能夠將低時延語音對話能力帶入實際應用。在國內,聲網與MiniMax、智譜等企業合作,推動了語音對話技術的秒響應和自然交互。
隨著RTE成為AI對話的基礎設施,音視頻對話正在成為智能應用的標配。終端設備如耳機、手機和家居產品不斷增強硬件加速能力,使"開口-回應-執行"的鏈路更加可用。雖然全新交互形態的硬件可能不會很快出現,但對話式AI引入硬件形態將帶來未來兩年的爆發式增長。











