OpenAI正式發(fā)布Sora應(yīng)用,其核心引擎升級為Sora 2模型,標(biāo)志著視頻生成技術(shù)進(jìn)入全新階段。這款被研發(fā)團(tuán)隊稱為"最強(qiáng)大影像引擎"的系統(tǒng),在物理交互、多模態(tài)生成和個性化創(chuàng)作方面實現(xiàn)突破性進(jìn)展,同時推出Cameo功能讓用戶深度參與內(nèi)容創(chuàng)作。
Sora 2的技術(shù)突破集中體現(xiàn)在三大領(lǐng)域。首先是物理引擎的質(zhì)的飛躍,系統(tǒng)能精準(zhǔn)模擬體操運(yùn)動員的空中翻轉(zhuǎn)、滑板運(yùn)動的復(fù)雜碰撞等動態(tài)場景,物體運(yùn)動軌跡和力學(xué)表現(xiàn)達(dá)到前所未有的真實度。其次是多鏡頭敘事能力,用戶可一次性生成包含多個場景切換的長視頻,突破傳統(tǒng)模型逐鏡頭制作的局限。第三是音視頻同步生成技術(shù),支持多語言對話、多角色配音及環(huán)境音效的自動匹配。
Cameo功能成為本次更新的核心亮點。通過分析用戶提供的30秒視頻素材,系統(tǒng)能建立三維數(shù)字分身,并將其無縫嵌入任意虛擬場景。這項基于世界模擬模型的技術(shù),不僅適用于人物形象,還能識別寵物、物體等非人類主體。用戶可自主設(shè)置形象使用權(quán)限,防止未經(jīng)授權(quán)的二次創(chuàng)作,同時通過偏好設(shè)置調(diào)整生成效果,避免出現(xiàn)不符合預(yù)期的細(xì)節(jié)。
產(chǎn)品界面設(shè)計融合社交媒體特性,用戶擁有個性化主頁并可建立關(guān)注關(guān)系,但所有內(nèi)容均由AI生成。簡易編輯器支持文字描述轉(zhuǎn)視頻功能,用戶輸入場景設(shè)定、風(fēng)格要求等文本指令即可獲得成品。混音功能允許用戶參與熱門創(chuàng)作趨勢,對現(xiàn)有內(nèi)容進(jìn)行二次改編。為保障創(chuàng)作安全,系統(tǒng)設(shè)置多重驗證機(jī)制,包括動態(tài)音頻檢測和頭部動作識別。
在內(nèi)容治理方面,平臺建立分級防護(hù)體系。未成年用戶默認(rèn)開啟防沉迷模式,設(shè)置使用時長限制和強(qiáng)制休息間隔。所有輸出內(nèi)容均添加隱形數(shù)字水印,可追溯生成源頭。內(nèi)部推理模型實時監(jiān)測違規(guī)內(nèi)容,尤其在Cameo功能中嚴(yán)格禁止色情、暴力等不當(dāng)創(chuàng)作。針對用戶創(chuàng)作權(quán),平臺明確生成內(nèi)容的所有權(quán)歸屬,創(chuàng)作者可隨時刪除授權(quán)內(nèi)容。
商業(yè)應(yīng)用層面,現(xiàn)有Web端將新增故事板功能,支持逐鏡頭精細(xì)化編輯。開發(fā)者API接口計劃在未來數(shù)周內(nèi)開放。移動端應(yīng)用率先登陸北美市場,采用邀請制逐步擴(kuò)大用戶規(guī)模,每位初始用戶可獲得4個邀請名額。系統(tǒng)內(nèi)置的創(chuàng)意模板庫已涌現(xiàn)大量用戶生成內(nèi)容,涵蓋虛擬廣告、奇幻短片等多元形式。
該研究項目始于2023年初,核心目標(biāo)是通過構(gòu)建物理世界模擬系統(tǒng),推動通用人工智能發(fā)展。研發(fā)團(tuán)隊認(rèn)為,精確理解物理規(guī)律是實現(xiàn)真正AGI的關(guān)鍵前提。此次升級的Sora 2不僅提升技術(shù)指標(biāo),更通過Cameo等創(chuàng)新功能,重新定義了人機(jī)協(xié)作的內(nèi)容生產(chǎn)方式。