商湯科技近日宣布,其自主研發的實時語音驅動數字人技術SekoTalk已正式投入商用,并在行業內率先實現實時生成能力。該技術基于8卡服務器架構,可穩定輸出25幀每秒的生成速率,首幀響應時間壓縮至3.5秒,標志著數字人交互效率取得突破性進展。在多模態適配方面,SekoTalk突破性地支持多語言口型同步技術,可精準匹配不同語種的發音特征,同時具備超長時段連續生成的穩定性優勢。
自今年8月正式上線以來,SekoTalk已深度集成至商湯Seko數字人平臺及如影創作系統中。通過模塊化部署方案,該技術已賦能用戶創作超過數十萬部數字人內容作品,其中不乏播放量突破2000萬次的現象級爆款。這種創作效率的躍升,得益于其底層架構對復雜語音特征的智能解析能力,能夠實時捕捉聲紋變化并轉化為精準的面部表情驅動參數。
技術團隊透露,SekoTalk的研發突破源于對生成式AI與語音識別技術的深度融合創新。通過構建三維聲場建模系統,結合動態神經網絡優化算法,成功解決了傳統數字人技術中存在的口型延遲、語言適配性差等痛點。目前該系統已支持中英日韓等主流語言的實時驅動,在跨文化內容創作場景中展現出顯著優勢。
在應用場景拓展方面,SekoTalk正加速向直播電商、在線教育、虛擬客服等領域滲透。某頭部教育平臺接入該技術后,其虛擬講師的互動響應速度提升40%,課程完播率同比增長25%。這種技術賦能效應正在重塑數字內容生產范式,推動人機交互向更自然、更高效的方向演進。











