谷歌近日悄然上線了新一代視頻生成模型Veo 3.1,在AI視頻生成領域掀起新一輪競爭。這款被視為Sora 2有力競爭者的產品,雖未帶來顛覆性突破,卻因多項功能與國內產品的相似性引發關注。
目前Veo 3.1提供標準版與快速版兩種模式,普通用戶可通過Gemini應用或Flow平臺體驗,開發者則能通過API接口調用核心功能。值得注意的是,該模型在視頻生成質量上實現了顯著提升,最高支持1080p分辨率輸出,畫面細節與清晰度達到專業級水準。相比之下,同期競品Sora 2的720p輸出能力顯得稍顯落后。
在功能創新方面,Veo 3.1引入了多項實用特性。其中最受關注的當屬參考圖定角色功能,用戶可上傳最多三張圖片作為角色特征參考,有效解決多鏡頭切換中的人物一致性難題。這項技術雖非首創,但相比OpenAI Sora 2的缺失狀態,仍顯示出谷歌的技術跟進速度。不過國內某知名AI視頻平臺早已支持四張參考圖輸入,在功能深度上更勝一籌。
音頻生成能力的升級是另一大亮點。模型現在能同步生成與畫面匹配的環境音效,從雨滴敲擊聲到腳步回響,再到自然對話的語音表現,都呈現出更強的真實感。但考慮到Sora 2在此領域的先發優勢,這項改進更多被視為技術追趕而非突破。
連續生成功能解決了短視頻創作的連貫性問題。用戶可基于前段視頻的最后兩秒內容繼續擴展,最長可生成超過一分鐘的完整片段,背景音樂與畫面過渡自然流暢。這種"接龍式"創作模式同樣出現在國內產品中,顯示出技術發展的趨同性。
首尾幀控制功能為創作者提供了更精準的畫面控制手段。通過設定起始幀與結束幀,模型能自動補全中間過渡畫面,包括光線變化與音效配合。這種技術在國內多個AI視頻平臺上已有成熟應用,谷歌的加入進一步驗證了其市場需求。
在用戶體驗設計上,谷歌采取了差異化策略。普通用戶每次生成需消耗20積分,初始賬戶僅提供單次免費機會,后續使用需付費升級。這種商業模式與國內某平臺形成鮮明對比——后者宣布在特定時間段內提供完全免費的Veo 3.1使用權限,且不附加任何水印限制。
開發者文檔顯示,通過API調用可實現更復雜的創作需求。用戶不僅能輸入文字指令,還可上傳圖片甚至現有視頻作為創作素材,這種多模態交互方式為專業創作開辟了新可能。快速版模式雖默認生成720p視頻,但支持付費升級至1080p,顯示出谷歌在商業變現上的謹慎探索。











