OpenAI近日正式發布新一代視頻生成模型Sora 2,該模型在物理模擬精度、畫面真實感及用戶控制能力方面實現突破性進展。此次升級首次引入與視頻畫面同步生成的AI音頻功能,能夠精準匹配復雜動作場景的物理規則,例如物體碰撞、液體流動等動態效果的聲效還原。
伴隨模型發布,OpenAI同步推出iOS版獨立應用Sora,其核心功能"入鏡"(Cameo)允許用戶通過上傳照片或實時拍攝,將自身形象自然融入生成的視頻場景中。該應用已開啟美國和加拿大地區的優先體驗,后續將分階段向全球用戶開放。開發者接口方面,Sora API將于數周內正式上線,為第三方應用提供視頻生成能力支持,目前安卓版本仍在研發階段。
在服務模式上,Sora 2采取基礎版免費+高級版訂閱的策略。所有用戶均可免費使用標準畫質版本,但設有每日生成次數限制;ChatGPT Pro會員可解鎖"Sora 2 Pro"模型,獲得4K分辨率、60幀率等增強參數;ChatGPT Plus用戶則與免費用戶保持同等權益。這種分層設計既降低了技術普及門檻,又為專業創作者提供了進階選擇。
技術文檔顯示,Sora 2通過改進時空注意力機制,顯著提升了長視頻生成的連貫性。在測試案例中,模型成功處理了包含20個獨立物體交互的復雜場景,其物理引擎對重力、摩擦力等參數的模擬準確率較初代提升47%。這種進步使得生成內容在科學演示、游戲開發等領域具有更高實用價值。