曹越老師團(tuán)隊(duì)旗下的Sand.ai近日發(fā)布了一款名為GAGA-1的全新AI視頻生成模型,主打音畫(huà)同步功能,并于上線(xiàn)首日向所有用戶(hù)免費(fèi)開(kāi)放。這款模型無(wú)需邀請(qǐng)碼或排隊(duì),用戶(hù)可直接通過(guò)官網(wǎng)體驗(yàn)其核心功能。
據(jù)研發(fā)團(tuán)隊(duì)介紹,GAGA-1的研發(fā)周期長(zhǎng)達(dá)6個(gè)月,遠(yuǎn)超最初計(jì)劃的2個(gè)月。其核心優(yōu)勢(shì)集中在人物表演領(lǐng)域,尤其是帶臺(tái)詞的影視級(jí)內(nèi)容生成。模型已能適配短劇、影游場(chǎng)景,部分功能可滿(mǎn)足電視劇需求,但尚未達(dá)到電影級(jí)表現(xiàn)。
目前,GAGA-1僅開(kāi)放“Gaga Actor”功能,畫(huà)幅固定為16:9,支持5秒和10秒兩種視頻時(shí)長(zhǎng)。用戶(hù)需提供圖片和文字描述作為輸入,生成時(shí)間約3-4分鐘。該模型對(duì)中英文臺(tái)詞的支持較為出色,能夠精準(zhǔn)還原失望、憤怒等復(fù)雜情緒,并支持雙人場(chǎng)景互動(dòng)。
在特色功能方面,GAGA-1不僅能識(shí)別外國(guó)人形象并生成帶有口音的普通話(huà),還具備唱歌能力。然而,模型也存在一些局限性,例如大幅動(dòng)作可能導(dǎo)致肢體變形,過(guò)長(zhǎng)提示詞可能被忽略,日文支持效果不佳,且無(wú)法自定義上傳音頻或固定音色。
GAGA-1自帶的Banana畫(huà)圖功能在生成亞洲人像時(shí)審美表現(xiàn)一般,建議用戶(hù)搭配Seedream 4.0使用以獲得更好效果。盡管如此,這款模型仍為低成本視頻創(chuàng)作提供了新的可能性,尤其適用于短劇制作、影游NPC對(duì)話(huà)生成以及小說(shuō)角色可視化等場(chǎng)景。
關(guān)于未來(lái)規(guī)劃,研發(fā)團(tuán)隊(duì)透露,自定義音頻和固定音色功能已接近完成,但因工程進(jìn)度原因未納入此次發(fā)布。價(jià)格方面,雖然免費(fèi)使用期限尚未確定,但明確表示后續(xù)定價(jià)將遠(yuǎn)低于Sora2和Veo3等同類(lèi)產(chǎn)品。











