上海AI實(shí)驗(yàn)室聯(lián)合北京航空航天大學(xué)、香港中文大學(xué)及哈爾濱工業(yè)大學(xué)等頂尖機(jī)構(gòu),在AI音樂(lè)生成領(lǐng)域取得突破性進(jìn)展。其研發(fā)的SongGen系統(tǒng)成為全球首個(gè)實(shí)現(xiàn)單階段人聲與伴奏同步生成的開(kāi)源模型,相關(guān)成果已發(fā)表于第42屆國(guó)際機(jī)器學(xué)習(xí)大會(huì)(ICML 2025),論文編號(hào)arXiv:2502.13128v2。
傳統(tǒng)AI音樂(lè)生成如同流水線作業(yè),需先生成人聲再匹配伴奏,這一過(guò)程易導(dǎo)致節(jié)拍錯(cuò)位、風(fēng)格割裂等問(wèn)題。研究團(tuán)隊(duì)通過(guò)自回歸變換器架構(gòu),使系統(tǒng)能同時(shí)協(xié)調(diào)人聲與伴奏的生成需求,如同指揮家統(tǒng)籌交響樂(lè)團(tuán)各聲部。實(shí)驗(yàn)數(shù)據(jù)顯示,該系統(tǒng)生成30秒音樂(lè)僅需18秒,較傳統(tǒng)方法提速58%,且在音樂(lè)性、和諧度等指標(biāo)上顯著領(lǐng)先。
系統(tǒng)提供混合模式與雙軌模式兩種工作方式。混合模式可直接輸出完整歌曲,適合普通用戶快速創(chuàng)作;雙軌模式則支持人聲與伴奏的獨(dú)立生成與后期調(diào)整,滿足專業(yè)制作需求。研究特別開(kāi)發(fā)混合增強(qiáng)技術(shù),通過(guò)專項(xiàng)人聲訓(xùn)練提升清晰度,使生成效果更接近專業(yè)錄音水準(zhǔn)。
在控制維度上,SongGen實(shí)現(xiàn)三級(jí)精細(xì)化操作:通過(guò)VoiceBPE分詞器處理歌詞,確保發(fā)音準(zhǔn)確性;采用FLAN-T5編碼器解析自然語(yǔ)言描述,支持"夏日民謠配鋼琴"等復(fù)雜指令;運(yùn)用MERT模型實(shí)現(xiàn)3秒語(yǔ)音克隆,可精準(zhǔn)復(fù)現(xiàn)音色特征。即使無(wú)參考語(yǔ)音,系統(tǒng)也能自動(dòng)生成適配聲線。
數(shù)據(jù)構(gòu)建方面,研究團(tuán)隊(duì)從8000小時(shí)原始音頻中篩選出2000小時(shí)高質(zhì)量片段,建立目前最大的開(kāi)源歌曲數(shù)據(jù)集。該過(guò)程涉及Demucs音軌分離、語(yǔ)音活動(dòng)檢測(cè)切片、雙重Whisper歌詞識(shí)別及CLAP描述生成等技術(shù),最終形成54萬(wàn)個(gè)標(biāo)注樣本,為模型訓(xùn)練提供堅(jiān)實(shí)基礎(chǔ)。
訓(xùn)練策略采用分階段優(yōu)化:首階段進(jìn)行模態(tài)對(duì)齊,建立文本、語(yǔ)音與音樂(lè)的映射關(guān)系;次階段開(kāi)展無(wú)語(yǔ)音支持訓(xùn)練,隨機(jī)隱藏50%參考語(yǔ)音以增強(qiáng)適應(yīng)性;終階段使用10萬(wàn)個(gè)精選樣本進(jìn)行高質(zhì)量精調(diào)。雙軌模式則通過(guò)遷移學(xué)習(xí),在混合模式基礎(chǔ)上快速適配獨(dú)立音軌生成。
評(píng)估體系包含客觀指標(biāo)與主觀評(píng)測(cè)。客觀方面采用FAD距離、KL散度等6項(xiàng)技術(shù)指標(biāo),主觀測(cè)試邀請(qǐng)20名聽(tīng)眾對(duì)5個(gè)維度評(píng)分。結(jié)果顯示,SongGen在整體質(zhì)量、文本相關(guān)性等指標(biāo)上超越商業(yè)系統(tǒng)Suno,尤其在節(jié)拍對(duì)齊與情感表達(dá)方面表現(xiàn)突出。頻譜分析證實(shí),生成音頻包含顫音、滑音等專業(yè)技巧。
技術(shù)局限性主要體現(xiàn)在三方面:當(dāng)前最大生成時(shí)長(zhǎng)為30秒,需后續(xù)擴(kuò)展完整歌曲結(jié)構(gòu);采用16kHz采樣率影響高保真效果;數(shù)據(jù)集以英語(yǔ)歌曲為主,多語(yǔ)言支持有待完善。研究團(tuán)隊(duì)正開(kāi)發(fā)音頻增強(qiáng)模塊,并計(jì)劃引入音樂(lè)理論框架以提升結(jié)構(gòu)理解能力。
該成果具有廣泛社會(huì)價(jià)值。自媒體創(chuàng)作者可快速生成定制配樂(lè),解決版權(quán)難題;音樂(lè)教育者能制作分級(jí)練習(xí)素材,提升教學(xué)互動(dòng)性;游戲產(chǎn)業(yè)可實(shí)現(xiàn)動(dòng)態(tài)背景音樂(lè)生成,增強(qiáng)沉浸體驗(yàn)。對(duì)于專業(yè)制作人,系統(tǒng)可作為創(chuàng)意孵化器,快速驗(yàn)證音樂(lè)構(gòu)想。
面對(duì)技術(shù)倫理挑戰(zhàn),研究團(tuán)隊(duì)強(qiáng)調(diào)建立AI生成內(nèi)容標(biāo)識(shí)制度,防止深度偽造濫用。他們已開(kāi)源全部代碼與數(shù)據(jù)集,推動(dòng)全球研究者共同完善技術(shù)標(biāo)準(zhǔn)。用戶現(xiàn)可通過(guò)GitHub獲取系統(tǒng),輸入"浪漫爵士樂(lè)配薩克斯"等描述,即可體驗(yàn)AI音樂(lè)創(chuàng)作的便捷與魅力。











