meta旗下FAIR團隊近日在自動語音識別領域取得突破性進展,正式推出名為Omnilingual ASR的開源多語言語音識別系統。該系統支持超過1600種語言的語音轉文本功能,其中包含350種此前鮮有數字資源的語言,標志著全球語言技術覆蓋范圍實現質的飛躍。
研究團隊通過創新架構設計突破傳統技術瓶頸,將wav2vec 2.0語音編碼器擴展至70億參數規模,構建出能夠從原始語音數據中提取多語言語義表征的基礎模型。配合兩種解碼器變體——基于連接主義時間分類(CTC)的傳統架構和受大語言模型啟發的Transformer解碼器,系統在1600余種語言上達到行業領先水平,其中78%語言的字符錯誤率低于10%。
該系統的核心突破在于開創"自帶語言"(Bring Your Own Language)模式。用戶僅需提供5-10組音頻與對應文本的示例,系統即可快速適配新語言,無需專業訓練數據或高性能計算資源。這種上下文學習能力源自大語言模型的技術遷移,使低資源語言社區首次獲得自主擴展語音技術的可能。
為支持不同應用場景,團隊同步發布完整模型套件:包含從3億參數的輕量級版本到70億參數的旗艦模型,覆蓋移動端設備到云端服務的全場景需求。配套發布的Omnilingual ASR Corpus數據集收錄350種語言的轉錄語音,其中多數語言此前從未被ASR系統覆蓋。所有模型采用Apache 2.0開源協議,數據集遵循CC-BY許可協議。
項目構建過程中,研究團隊與全球40余個語言社區展開深度合作。通過與Mozilla Common Voice、Lanfrica等組織協作,在非洲、南亞等地區采集超過20萬小時語音數據,確保系統對方言變體和文化語境的適應性。特別針對無文字語言,團隊開發出基于語音相似度的表征學習方法,使這些語言的識別準確率提升40%以上。
技術文檔顯示,70億參數模型在長尾語言上的表現尤為突出。在非洲班圖語系和南島語族的測試中,系統字符錯誤率較現有最好模型降低28%,同時推理速度提升3倍。這種性能提升得益于多任務學習框架,該框架使模型能同時從高資源語言和低資源語言中提取通用語音特征。
開源社區已涌現出多個衍生應用:基于Hugging Face平臺的實時轉錄工具支持1200種語言互譯,語言探索Demo通過可視化地球儀展示模型覆蓋范圍,學術界則開始利用其預訓練模型研究語言演化規律。研究團隊強調,系統設計充分考慮倫理風險,通過差分隱私技術保護語音提供者身份信息,并建立人工審核機制防止有害內容傳播。
項目官網提供完整技術報告、模型下載和交互式演示入口。開發者可通過GitHub獲取代碼庫,學術機構可申請數據集訪問權限。隨著更多社區參與貢獻數據,系統預計每季度更新語言支持列表,目標在2026年前實現2000種語言的全面覆蓋。











