國慶假期期間,視頻生成領域迎來新一輪技術熱潮,各大科技公司紛紛推出創新產品,推動行業進入全新發展階段。OpenAI率先發布旗艦視頻生成模型Sora 2,并同步推出Sora應用程序,其"Cameo(引用角色功能)"在上線首周下載量便超越ChatGPT,引發市場廣泛關注。緊隨其后,馬斯克旗下xAI推出Imagine v0.9,以20秒內快速生成視頻且全用戶免費開放的特點作出回應。國內AI視頻創業公司生數科技也宣布,其Vidu Q2參考生功能將于本月底正式亮相,為行業注入新的活力。
在這場技術競賽中,"引用角色形象"成為視頻生成領域的關鍵突破方向。Sora應用的Cameo功能和Vidu的參考生功能,均通過支持上傳參考圖生成視頻的方式,有效解決了視頻生成中的情節割裂、角色行為矛盾等問題。這種技術路徑不僅提升了視頻生成的可控性,還為創作者提供了更高的自由度。
作為全球"參考生視頻"概念的首創者,生數科技早在2024年9月便推出了Vidu的參考生視頻功能。隨著Sora應用程序的落地,中美在AI視頻領域的技術與產品競爭正式進入白熱化階段。Vidu Q2參考生視頻功能的推出,不僅降低了普通用戶的使用門檻,還滿足了專業創作者及廣告電商、影視動漫等To B領域對一致性、精準性和性價比的高要求。
當前,視頻生成技術仍面臨諸多挑戰。相較于文字和圖像生成,視頻生成需要處理連續畫面中的敘事完整性,時長增加時易出現情節斷裂、角色行為不一致等問題。模型的理解能力和記憶能力限制,以及普通用戶難以準確使用專業術語的痛點,進一步加劇了視頻生成的可控性難題。引用角色形象的技術思路,成為解決這些問題的有效路徑。
Sora App中的Cameo功能允許用戶通過簡短視頻和音頻錄制,將自己或授權他人帶入生成的場景中,實現角色參考。而Vidu的"參考生"功能則覆蓋角色、環境、道具等更多要素,為創作者提供更高的自由度和控制力。例如,Vidu Q2支持上傳最多7張照片,包括人物、物體、場景等不同組合,并在保持參考圖特征的同時,更貼近用戶原始輸入。
在實際效果對比中,Vidu Q2參考生功能展現出顯著優勢。以介紹皇冠的提示詞為例,Sora 2生成的視頻中皇冠樣式發生改變,甚至出現憑空漂浮的反常理畫面;而Vidu Q2生成的視頻中,主體人物始終手握皇冠,人物形象、皇冠樣式及麥克風位置保持一致,眼神隨皇冠移動而變化,增強了互動感。盡管Vidu Q2未生成音頻,但其在主體一致性上的表現更為突出。
在另一個案例中,提示詞要求"女孩閉上眼睛,身后的云朵飛舞,發出金光"。Sora 2生成的人臉與參考圖差異較大,而Vidu Q2則更好地保持了與參考圖人物的一致性。這些對比表明,Vidu參考生功能突破了單一角色引用的局限,實現了角色、道具、場景、特效等全要素參考,同時在主體一致性上保持領先。
據悉,Vidu Q2模型的升級將AI視頻生成推向新階段,其參考生功能在原有基礎上實現了質的突破。升級后的版本在視頻一致性上保持全球領先,生成速度更快,價格更優惠,且對國內用戶更加友好。內測體驗顯示,Vidu Q2在廣告電商、知識科普、寵物擬人化劇情等多個場景中均表現出色,能夠滿足鏡頭角度轉換、人物動作變化等需求,生成速度僅需十幾秒即可完成5秒視頻片段。
例如,在廣告電商類案例中,Vidu Q2成功復現了美妝博主眼睛上的亮片、使用的美妝蛋及臥室梳妝臺等細節,人物運動和鏡頭切換時未出現變形。在知識科普類案例中,皮革紋理、工具擺放位置保持不變,鏡頭切換精準。在寵物擬人化劇情案例中,客廳背景、道具位置及柯基帽子均與參考圖一致,鏡頭運鏡符合提示詞要求。這些案例充分展示了Vidu Q2參考生功能的實用性和創新性。
隨著Vidu Q2參考生視頻功能的發布倒計時開啟,其將用實際表現證明中國視頻大模型的技術實力和落地價值。這場視頻生成競賽不僅推動了技術的進步,也為創作者提供了更高效的工具,助力視頻生成領域邁向新的發展高度。











