滾動資訊

當前位置：首頁 > 資訊 > 業(yè)界動態(tài) > 正文內(nèi)容

Meta推出SAM Audio：全球首創(chuàng)多模態(tài)交互，精準定位分離任意目標聲音

時間：2025-12-18 18:45:34 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

meta公司近日在音頻技術(shù)領(lǐng)域取得重大進展，正式發(fā)布全球首個多模態(tài)音頻分離模型——SAM Audio。這項創(chuàng)新技術(shù)通過模擬人類感知聲音的天然方式，實現(xiàn)了對復雜音頻的精準解析與交互式提取。用戶現(xiàn)在能夠像“用眼睛聆聽”般，從混合音頻或視頻中分離出特定目標聲音，無論是點擊畫面中的樂器、輸入文字描述聲源，還是標記時間片段，均可一鍵完成操作。

該模型的核心突破在于其自研的感知編碼器視聽引擎（PE-AV），這一被稱為模型“聽覺中樞”的技術(shù)，源于meta今年4月開源的計算機視覺模型meta Perception Encoder的擴展。通過將高級視覺理解能力與音頻信號深度融合，PE-AV首次實現(xiàn)了跨模態(tài)的聲音定位與分離，為音頻處理開辟了全新路徑。例如，用戶只需點擊視頻中的吉他手，系統(tǒng)即可瞬間提取純凈的吉他聲；輸入“狗吠”關(guān)鍵詞，便能自動過濾播客中的犬類噪音；甚至通過標記時間區(qū)間，可精準剔除特定時段的干擾音。

SAM Audio提供了三種直觀交互模式，支持單獨或組合使用。文本提示功能允許用戶通過語義描述（如“人聲演唱”“汽車喇叭”）直接提取對應聲源；視覺提示則通過點擊視頻畫面中的發(fā)聲物體（如說話者、敲擊鍵盤的手）實現(xiàn)音頻分離；時間片段提示作為行業(yè)首創(chuàng)功能，用戶可標記目標聲音出現(xiàn)的時間范圍（如“2分30秒至3分15秒”），系統(tǒng)將自動處理整段錄音中的同類聲音。meta將這一功能類比為科幻作品中的“超夢”技術(shù)，強調(diào)其精準性與靈活性。

為推動技術(shù)標準化，meta同步開源了兩項關(guān)鍵工具：SAM Audio-Bench作為首個基于真實場景的音頻分離評測基準，為行業(yè)提供了統(tǒng)一的評估標準；SAM Audio Judge則是全球首個專用于音頻分離質(zhì)量的自動評估模型，能夠量化分析分離結(jié)果的純凈度與完整性。這兩項工具的開源，將加速音頻處理技術(shù)的迭代與落地應用。

PE-AV引擎的潛力不僅限于音頻分離領(lǐng)域。作為meta多模態(tài)AI生態(tài)的基礎(chǔ)組件，該技術(shù)將賦能旗下字幕生成、視頻理解與智能剪輯等系統(tǒng)，提升跨模態(tài)內(nèi)容處理的效率與準確性。其開源特性更意味著開發(fā)者可基于此構(gòu)建多樣化的“視聽聯(lián)覺”應用，例如自動消噪的會議記錄工具、沉浸式AR音頻交互系統(tǒng)，或針對聽力障礙人群的無障礙輔助設(shè)備。

在視頻內(nèi)容呈指數(shù)級增長的當下，SAM Audio的推出標志著音頻處理正式邁入“可交互、可編輯、可理解”的新階段。過去，用戶只能被動接收混合聲音；如今，通過meta的技術(shù)，人們首次獲得了“選擇性聆聽”的能力——這一變革或許僅是多模態(tài)AI重塑人類感官體驗的起點。

體驗地址：
https://ai.meta.com/samaudio/
https://github.com/facebookresearch/sam-audio

12-18

Google網(wǎng)頁端集成Opal：自然語言對話生成應用，開啟“氛圍編程”新體驗

12-18

小米17Ultra下周登場：與徠卡戰(zhàn)略共創(chuàng)，影像體驗邁向新高度

12-18

高德發(fā)布智能穿戴方案，攜手小米、Rokid等開啟出行服務新體驗

12-18

小米17Ultra開啟預約：徠卡加持影像登峰，驍龍芯片性能強勁

12-18

Mozilla新CEO掌舵：Firefox擁抱AI但堅守“可選”底線守護開放網(wǎng)絡未來

12-18

谷歌推TorchTPU計劃聯(lián)手Meta優(yōu)化適配，挑戰(zhàn)英偉達AI芯片生態(tài)霸主地位

12-18

豆包AI眼鏡將至！2000元內(nèi)攜手潤欣老鳳祥開啟智能穿戴新體驗

12-18

Perplexity Pro與Max用戶迎新升級：Gemini3Flash助力問答體驗再提升

12-18

字節(jié)跳動TRAE CN企業(yè)版發(fā)布：性能強勁安全護航，超九成工程師力薦

12-18

Google Labs新推AI助理CC：每日晨間郵件，一站式搞定Gmail日歷Drive事務

12-18

比亞迪唐L第3次OTA升級：24項新功能上線，座艙與駕駛體驗再進化

12-18

探索太空新體驗：從美食到科技，期刊帶你領(lǐng)略宇宙魅力

12-18

AI音樂崛起與行業(yè)新篇：B站音樂生態(tài)報告揭示音樂產(chǎn)業(yè)新可能

12-18

AI應用浪潮席卷全球，中國AI以務實姿態(tài)領(lǐng)跑，百度成關(guān)鍵力量

12-18

點擊查看更多 +

全站最新

蔚來全新ES8交付破三萬，純電大三排SUV黃金時代正加速開啟

方程豹首款轎車諜照曝光！流線設(shè)計配激光雷達，或2026年登場引期待

一汽大眾攜手成都企業(yè)成立捷達汽車科技公司 30億注冊資本助力川汽發(fā)展

大眾純電ID.Polo：全新MEB+平臺打造，西班牙研發(fā)，與燃油版有何不同？

比亞迪L3級自動駕駛內(nèi)測成果顯著，安全為基引領(lǐng)“全民智駕”新征程

江鈴汽車富山工廠開放日：孩童探秘“智造” 播撒工業(yè)夢想種子

熱門內(nèi)容

本欄最新

逆勢擴張顯實力，潮玩電子運動品牌商場大店引領(lǐng)消費新潮流

京東武漢“小哥之家”暖心上線，免費住宿讓一線員工安居又樂業(yè)

網(wǎng)易有道戰(zhàn)略新航向：聚焦學習與廣告AI，加速邁向L4虛擬老師時代

白犀牛獲新一輪融資加速布局：車規(guī)級平臺量產(chǎn)在即拓展多場景與海外市場

2025年度詞“Slop”來襲：當數(shù)字泔水充斥屏幕，用戶淪為何物？

京東武漢“小哥之家”暖心上線免費住宿讓一線員工安心扎根城市

本網(wǎng)站LOGO小熊標志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级

Meta推出SAM Audio：全球首創(chuàng)多模態(tài)交互，精準定位分離任意目標聲音