meta公司近日在音頻技術(shù)領(lǐng)域取得重大進展,正式發(fā)布全球首個多模態(tài)音頻分離模型——SAM Audio。這項創(chuàng)新技術(shù)通過模擬人類感知聲音的天然方式,實現(xiàn)了對復雜音頻的精準解析與交互式提取。用戶現(xiàn)在能夠像“用眼睛聆聽”般,從混合音頻或視頻中分離出特定目標聲音,無論是點擊畫面中的樂器、輸入文字描述聲源,還是標記時間片段,均可一鍵完成操作。
該模型的核心突破在于其自研的感知編碼器視聽引擎(PE-AV),這一被稱為模型“聽覺中樞”的技術(shù),源于meta今年4月開源的計算機視覺模型meta Perception Encoder的擴展。通過將高級視覺理解能力與音頻信號深度融合,PE-AV首次實現(xiàn)了跨模態(tài)的聲音定位與分離,為音頻處理開辟了全新路徑。例如,用戶只需點擊視頻中的吉他手,系統(tǒng)即可瞬間提取純凈的吉他聲;輸入“狗吠”關(guān)鍵詞,便能自動過濾播客中的犬類噪音;甚至通過標記時間區(qū)間,可精準剔除特定時段的干擾音。
SAM Audio提供了三種直觀交互模式,支持單獨或組合使用。文本提示功能允許用戶通過語義描述(如“人聲演唱”“汽車喇叭”)直接提取對應聲源;視覺提示則通過點擊視頻畫面中的發(fā)聲物體(如說話者、敲擊鍵盤的手)實現(xiàn)音頻分離;時間片段提示作為行業(yè)首創(chuàng)功能,用戶可標記目標聲音出現(xiàn)的時間范圍(如“2分30秒至3分15秒”),系統(tǒng)將自動處理整段錄音中的同類聲音。meta將這一功能類比為科幻作品中的“超夢”技術(shù),強調(diào)其精準性與靈活性。
為推動技術(shù)標準化,meta同步開源了兩項關(guān)鍵工具:SAM Audio-Bench作為首個基于真實場景的音頻分離評測基準,為行業(yè)提供了統(tǒng)一的評估標準;SAM Audio Judge則是全球首個專用于音頻分離質(zhì)量的自動評估模型,能夠量化分析分離結(jié)果的純凈度與完整性。這兩項工具的開源,將加速音頻處理技術(shù)的迭代與落地應用。
PE-AV引擎的潛力不僅限于音頻分離領(lǐng)域。作為meta多模態(tài)AI生態(tài)的基礎(chǔ)組件,該技術(shù)將賦能旗下字幕生成、視頻理解與智能剪輯等系統(tǒng),提升跨模態(tài)內(nèi)容處理的效率與準確性。其開源特性更意味著開發(fā)者可基于此構(gòu)建多樣化的“視聽聯(lián)覺”應用,例如自動消噪的會議記錄工具、沉浸式AR音頻交互系統(tǒng),或針對聽力障礙人群的無障礙輔助設(shè)備。
在視頻內(nèi)容呈指數(shù)級增長的當下,SAM Audio的推出標志著音頻處理正式邁入“可交互、可編輯、可理解”的新階段。過去,用戶只能被動接收混合聲音;如今,通過meta的技術(shù),人們首次獲得了“選擇性聆聽”的能力——這一變革或許僅是多模態(tài)AI重塑人類感官體驗的起點。
體驗地址:
https://ai.meta.com/samaudio/
https://github.com/facebookresearch/sam-audio












