滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 游戲之家 > 正文內(nèi)容

上海AI實(shí)驗(yàn)室SongGen系統(tǒng)：輸入歌詞與風(fēng)格，一鍵生成人聲伴奏和諧歌

時(shí)間：2025-10-11 03:26:52 來(lái)源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評(píng)論無(wú)障礙通道

上海AI實(shí)驗(yàn)室聯(lián)合北京航空航天大學(xué)、香港中文大學(xué)及哈爾濱工業(yè)大學(xué)等頂尖機(jī)構(gòu)，在AI音樂(lè)生成領(lǐng)域取得突破性進(jìn)展。其研發(fā)的SongGen系統(tǒng)成為全球首個(gè)實(shí)現(xiàn)單階段人聲與伴奏同步生成的開(kāi)源模型，相關(guān)成果已發(fā)表于第42屆國(guó)際機(jī)器學(xué)習(xí)大會(huì)（ICML 2025），論文編號(hào)arXiv:2502.13128v2。

傳統(tǒng)AI音樂(lè)生成如同流水線作業(yè)，需先生成人聲再匹配伴奏，這一過(guò)程易導(dǎo)致節(jié)拍錯(cuò)位、風(fēng)格割裂等問(wèn)題。研究團(tuán)隊(duì)通過(guò)自回歸變換器架構(gòu)，使系統(tǒng)能同時(shí)協(xié)調(diào)人聲與伴奏的生成需求，如同指揮家統(tǒng)籌交響樂(lè)團(tuán)各聲部。實(shí)驗(yàn)數(shù)據(jù)顯示，該系統(tǒng)生成30秒音樂(lè)僅需18秒，較傳統(tǒng)方法提速58%，且在音樂(lè)性、和諧度等指標(biāo)上顯著領(lǐng)先。

系統(tǒng)提供混合模式與雙軌模式兩種工作方式。混合模式可直接輸出完整歌曲，適合普通用戶快速創(chuàng)作；雙軌模式則支持人聲與伴奏的獨(dú)立生成與后期調(diào)整，滿足專業(yè)制作需求。研究特別開(kāi)發(fā)混合增強(qiáng)技術(shù)，通過(guò)專項(xiàng)人聲訓(xùn)練提升清晰度，使生成效果更接近專業(yè)錄音水準(zhǔn)。

在控制維度上，SongGen實(shí)現(xiàn)三級(jí)精細(xì)化操作：通過(guò)VoiceBPE分詞器處理歌詞，確保發(fā)音準(zhǔn)確性；采用FLAN-T5編碼器解析自然語(yǔ)言描述，支持"夏日民謠配鋼琴"等復(fù)雜指令；運(yùn)用MERT模型實(shí)現(xiàn)3秒語(yǔ)音克隆，可精準(zhǔn)復(fù)現(xiàn)音色特征。即使無(wú)參考語(yǔ)音，系統(tǒng)也能自動(dòng)生成適配聲線。

數(shù)據(jù)構(gòu)建方面，研究團(tuán)隊(duì)從8000小時(shí)原始音頻中篩選出2000小時(shí)高質(zhì)量片段，建立目前最大的開(kāi)源歌曲數(shù)據(jù)集。該過(guò)程涉及Demucs音軌分離、語(yǔ)音活動(dòng)檢測(cè)切片、雙重Whisper歌詞識(shí)別及CLAP描述生成等技術(shù)，最終形成54萬(wàn)個(gè)標(biāo)注樣本，為模型訓(xùn)練提供堅(jiān)實(shí)基礎(chǔ)。

訓(xùn)練策略采用分階段優(yōu)化：首階段進(jìn)行模態(tài)對(duì)齊，建立文本、語(yǔ)音與音樂(lè)的映射關(guān)系；次階段開(kāi)展無(wú)語(yǔ)音支持訓(xùn)練，隨機(jī)隱藏50%參考語(yǔ)音以增強(qiáng)適應(yīng)性；終階段使用10萬(wàn)個(gè)精選樣本進(jìn)行高質(zhì)量精調(diào)。雙軌模式則通過(guò)遷移學(xué)習(xí)，在混合模式基礎(chǔ)上快速適配獨(dú)立音軌生成。

評(píng)估體系包含客觀指標(biāo)與主觀評(píng)測(cè)。客觀方面采用FAD距離、KL散度等6項(xiàng)技術(shù)指標(biāo)，主觀測(cè)試邀請(qǐng)20名聽(tīng)眾對(duì)5個(gè)維度評(píng)分。結(jié)果顯示，SongGen在整體質(zhì)量、文本相關(guān)性等指標(biāo)上超越商業(yè)系統(tǒng)Suno，尤其在節(jié)拍對(duì)齊與情感表達(dá)方面表現(xiàn)突出。頻譜分析證實(shí)，生成音頻包含顫音、滑音等專業(yè)技巧。

技術(shù)局限性主要體現(xiàn)在三方面：當(dāng)前最大生成時(shí)長(zhǎng)為30秒，需后續(xù)擴(kuò)展完整歌曲結(jié)構(gòu)；采用16kHz采樣率影響高保真效果；數(shù)據(jù)集以英語(yǔ)歌曲為主，多語(yǔ)言支持有待完善。研究團(tuán)隊(duì)正開(kāi)發(fā)音頻增強(qiáng)模塊，并計(jì)劃引入音樂(lè)理論框架以提升結(jié)構(gòu)理解能力。

該成果具有廣泛社會(huì)價(jià)值。自媒體創(chuàng)作者可快速生成定制配樂(lè)，解決版權(quán)難題；音樂(lè)教育者能制作分級(jí)練習(xí)素材，提升教學(xué)互動(dòng)性；游戲產(chǎn)業(yè)可實(shí)現(xiàn)動(dòng)態(tài)背景音樂(lè)生成，增強(qiáng)沉浸體驗(yàn)。對(duì)于專業(yè)制作人，系統(tǒng)可作為創(chuàng)意孵化器，快速驗(yàn)證音樂(lè)構(gòu)想。

面對(duì)技術(shù)倫理挑戰(zhàn)，研究團(tuán)隊(duì)強(qiáng)調(diào)建立AI生成內(nèi)容標(biāo)識(shí)制度，防止深度偽造濫用。他們已開(kāi)源全部代碼與數(shù)據(jù)集，推動(dòng)全球研究者共同完善技術(shù)標(biāo)準(zhǔn)。用戶現(xiàn)可通過(guò)GitHub獲取系統(tǒng)，輸入"浪漫爵士樂(lè)配薩克斯"等描述，即可體驗(yàn)AI音樂(lè)創(chuàng)作的便捷與魅力。

11-02

2026款起亞奕跑：6.48萬(wàn)起解鎖「顏值+實(shí)用」雙buff的年輕出行新方案

11-01

英特爾Battlemage高端顯卡計(jì)劃曝光：最高40個(gè)Xe核心性能潛力可期

11-01

雷蛇攜手Valve推出《CS2》聯(lián)名外設(shè)，“龍狙”主題設(shè)計(jì)致敬游戲傳奇

11-01

雙11換機(jī)正當(dāng)時(shí)！搭載酷睿Ultra 200H的AI PC，為你的工作生活添效率

11-01

科研逐夢(mèng)人張洪章：以報(bào)國(guó)之志，在太空書寫科研新篇

11-01

烏鎮(zhèn)蝶變：數(shù)字引擎驅(qū)動(dòng)，共繪全球互聯(lián)網(wǎng)開(kāi)放普惠新圖景

11-01

英特爾Battlemage新動(dòng)向：BMG-G31或催生四款GPU，Arc B770呼之欲出

11-01

完美世界“營(yíng)利雙增”：游戲業(yè)務(wù)亮眼，電競(jìng)生態(tài)能否成新增長(zhǎng)引擎？

11-01

抖音短視頻批量制作選哪家？技術(shù)驅(qū)動(dòng)與差異化方案助您精準(zhǔn)匹配需求

它不僅僅是一家視頻制作公司，更是一家以技術(shù)和數(shù)據(jù)驅(qū)動(dòng)的“視頻工廠”，其模式深刻改變了傳統(tǒng)視頻生產(chǎn)的成本與效率結(jié)構(gòu)。明確核心需求：您是需要純粹的視頻產(chǎn)能（選一覽科技），還是需要連帶達(dá)人資源（考慮螞蟻星球），…

11-01

以安全品質(zhì)破局新能源市場(chǎng)，北京現(xiàn)代EO羿歐開(kāi)啟合資反攻新征程

10-31

從編程到日常：階躍星辰桌面Agent小躍，如何重塑人機(jī)交互新體驗(yàn)？

10-31

AMD轉(zhuǎn)向新架構(gòu)：RX 5000/6000系列顯卡游戲優(yōu)化重心轉(zhuǎn)移至RDNA3/4

10-31

2025年Q3三家A股游戲廠商逆勢(shì)突圍：世紀(jì)華通破百億，完美游族扭虧為盈

10-31

完美世界2025年成績(jī)亮眼：Q3及前三季度營(yíng)收凈利潤(rùn)均大幅增長(zhǎng)

10-31

點(diǎn)擊查看更多 +

全站最新

特斯拉Cybercab實(shí)車亮相：前臉精致，部分組件或已達(dá)量產(chǎn)水準(zhǔn)

法拉第未來(lái)FXSuperOne迪拜首秀即火，48小時(shí)斬獲超200個(gè)B2B付費(fèi)預(yù)訂單

百度“文心一言”App再升級(jí)：5.0版本更名“文心”并新增多項(xiàng)AI功能

大陽(yáng)西安新車發(fā)布會(huì)閃耀開(kāi)啟，VRX150與ADV350攜混動(dòng)科技與跨界性能驚艷登場(chǎng)

東風(fēng)日產(chǎn)攜手華為乾崑發(fā)力燃油車智能化天籟·鴻蒙座艙開(kāi)啟新賽道

豐田全新卡羅拉概念車東京車展首秀，設(shè)計(jì)革新多能源動(dòng)力引期待

熱門內(nèi)容

本欄最新

2026款起亞奕跑：6.48萬(wàn)起解鎖「顏值+實(shí)用」雙buff的年輕出行新方案

以安全品質(zhì)破局新能源市場(chǎng)，北京現(xiàn)代EO羿歐開(kāi)啟合資反攻新征程

成都數(shù)字文創(chuàng)企業(yè)組團(tuán)進(jìn)京：探前沿模式，尋合作契機(jī)，共繪產(chǎn)業(yè)新篇

從成都到北京：數(shù)字文創(chuàng)企業(yè)組團(tuán)“取經(jīng)”，開(kāi)啟合作發(fā)展新篇章

谷歌連續(xù)注資！11人AI編程創(chuàng)企Blacksmith獲7100萬(wàn)融資，加速開(kāi)發(fā)者生態(tài)布局

山東農(nóng)大團(tuán)隊(duì)20年攻堅(jiān) 破解植物“單細(xì)胞再生完整植株”百年謎題

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶提供內(nèi)容聽(tīng)讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级

上海AI實(shí)驗(yàn)室SongGen系統(tǒng)：輸入歌詞與風(fēng)格，一鍵生成人聲伴奏和諧歌