百度搜索近日宣布,旗下文心助手AIGC創(chuàng)作能力迎來重大升級,推出涵蓋AI圖片、視頻、音樂、播客等八大模態(tài)的創(chuàng)作矩陣,并同步發(fā)布行業(yè)首個(gè)開放式實(shí)時(shí)互動(dòng)數(shù)字人智能體。此次升級標(biāo)志著搜索引擎從傳統(tǒng)信息檢索工具向“全能創(chuàng)作與服務(wù)平臺(tái)”的深度轉(zhuǎn)型,同時(shí)突破了多項(xiàng)技術(shù)瓶頸,為用戶提供更高效的創(chuàng)作與任務(wù)解決方案。
升級后的文心助手構(gòu)建了全棧式創(chuàng)作能力,尤其在視頻生成領(lǐng)域?qū)崿F(xiàn)核心突破。依托百度蒸汽機(jī)(文心專精)模型的技術(shù)迭代,傳統(tǒng)AI視頻10秒左右的時(shí)長限制被徹底打破,用戶輸入一段文字即可生成3分鐘的長視頻故事,涵蓋情節(jié)設(shè)計(jì)、角色建模、鏡頭運(yùn)鏡、配樂合成等全流程,且生成速度超越國內(nèi)主流同類模型。平臺(tái)還集成了“一句話寫歌”“MV制作”“名場面模仿秀”等特色功能,搭配超30種特效模板,形成覆蓋靜態(tài)圖像處理、動(dòng)態(tài)視頻制作、音頻創(chuàng)作的完整生態(tài)鏈。
在創(chuàng)作場景的延伸上,文心助手已支持用戶日均生成千萬量級的AIGC內(nèi)容,印證了多模態(tài)創(chuàng)作工具的規(guī)模化應(yīng)用價(jià)值。據(jù)百度搜索相關(guān)負(fù)責(zé)人透露,后續(xù)即將上線的音樂數(shù)字人分身功能,將進(jìn)一步實(shí)現(xiàn)“創(chuàng)作-演繹”的全鏈路AI賦能,為用戶提供更沉浸式的創(chuàng)作體驗(yàn)。
除內(nèi)容創(chuàng)作外,文心助手在任務(wù)解決能力上也實(shí)現(xiàn)了關(guān)鍵升級。通過構(gòu)建多工具調(diào)用引擎,用戶可一鍵觸發(fā)跨領(lǐng)域服務(wù),覆蓋生活規(guī)劃、健康咨詢、教育輔導(dǎo)、職場辦公等核心場景。例如,家長查詢“小學(xué)生科學(xué)實(shí)驗(yàn)方案”時(shí),系統(tǒng)可自動(dòng)整合實(shí)驗(yàn)步驟文本、器材清單圖片、操作演示短視頻,并生成可打印的任務(wù)卡,無需用戶多次切換工具。這種“需求-解決方案”的直達(dá)模式,體現(xiàn)了文心大模型對用戶意圖的深度理解與資源調(diào)度能力。
同日發(fā)布的開放式實(shí)時(shí)互動(dòng)數(shù)字人智能體,成為本次升級的另一大亮點(diǎn)。該技術(shù)基于文心大模型4.5構(gòu)建,融合NOVA數(shù)字人技術(shù)的核心優(yōu)勢,提供超擬真交互體驗(yàn):通過10分鐘真人樣本數(shù)據(jù)即可復(fù)刻聲音特征、動(dòng)作習(xí)慣與微表情,口型準(zhǔn)確率與表情自然度達(dá)到行業(yè)領(lǐng)先水平;采用云渲染與端渲染雙引擎適配,兼容多終端場景,實(shí)時(shí)對話延遲控制在百毫秒以內(nèi);目前已接入法律、情感、旅游等領(lǐng)域的專家數(shù)字分身,用戶可直接就專業(yè)問題展開深度對話,未來還將開放第三方開發(fā)者平臺(tái)。











