可靈數(shù)字人技術(shù)迎來重大升級,其最新推出的2.0版本已面向所有用戶開放使用。用戶只需完成角色圖像上傳、配音內(nèi)容添加和表現(xiàn)描述三個簡單步驟,即可創(chuàng)建出具備高度擬真度的數(shù)字人形象,實現(xiàn)自然流暢的語音表達(dá)與肢體動作。
相較于今年9月首次亮相的初代產(chǎn)品,新版本在三大核心領(lǐng)域?qū)崿F(xiàn)突破性進(jìn)展。首先通過增強型體態(tài)控制系統(tǒng),數(shù)字人現(xiàn)已支持復(fù)雜手勢組合與多角度表情切換,能夠精準(zhǔn)捕捉并復(fù)現(xiàn)人類細(xì)微的情感變化。其次在動作同步技術(shù)方面,研發(fā)團(tuán)隊攻克了手部骨骼追蹤難題,使手指關(guān)節(jié)運動與語音節(jié)奏保持高度協(xié)調(diào)。最引人注目的是內(nèi)容生成時長的擴(kuò)展,單段視頻制作上限從原先的1分鐘延長至5分鐘,為長敘事內(nèi)容創(chuàng)作提供了技術(shù)支撐。
該系統(tǒng)的技術(shù)底座建立在多模態(tài)深度學(xué)習(xí)框架之上,其核心的DiT架構(gòu)融合了時空注意力機制與特征解耦技術(shù)。這種創(chuàng)新設(shè)計使得系統(tǒng)能夠并行處理視覺、聽覺與運動信息,在保持角色形象一致性的同時,實現(xiàn)面部肌肉運動與語音內(nèi)容的毫秒級同步。據(jù)技術(shù)文檔披露,系統(tǒng)通過解析超過200個面部特征點,結(jié)合語義理解模塊對音頻內(nèi)容的情感分析,自動生成符合語境的微表情與肢體語言。
在應(yīng)用場景方面,升級后的系統(tǒng)顯著提升了創(chuàng)作自由度。創(chuàng)作者不僅可以通過文本指令調(diào)整數(shù)字人的表演風(fēng)格,還能利用預(yù)設(shè)的鏡頭語言模板實現(xiàn)推拉搖移等專業(yè)運鏡效果。測試數(shù)據(jù)顯示,新版本在復(fù)雜光照環(huán)境下的渲染效率提升40%,人物邊緣細(xì)節(jié)處理精度達(dá)到影視級標(biāo)準(zhǔn),為短視頻創(chuàng)作者、在線教育機構(gòu)及虛擬主播提供了高效的內(nèi)容生產(chǎn)工具。












