meta基礎人工智能研究團隊FAIR近日宣布推出一項名為“全語種自動語音識別系統”(Omnilingual ASR)的創新技術,該系統可支持超過1600種語言的語音轉寫功能,顯著擴大了現有語音識別技術的語言覆蓋范圍。這一突破性成果有望為全球語言多樣性保護與跨語言交流提供重要支持。
傳統語音識別工具主要聚焦于數百種資源豐富的語言,這些語言擁有大量標注音頻數據用于模型訓練。然而全球現存7000余種語言中,絕大多數因缺乏訓練數據而難以獲得人工智能技術支持。Omnilingual ASR的研發正是為了填補這一技術鴻溝,其支持的語種中包含500種此前從未被任何AI系統覆蓋的語言。
系統性能測試數據顯示,在1600種測試語言中,78%的語言實現了字符錯誤率(CER)低于10%的識別精度。當訓練音頻時長達到10小時及以上時,這一比例提升至95%;即使對于訓練數據不足10小時的“低資源語言”,仍有36%達到相同精度標準。研究團隊強調,識別準確率與訓練數據量呈現顯著正相關關系。
為推動技術普惠應用,meta同步開放了“全語種ASR語料庫”(Omnilingual ASR Corpus),該數據集包含350種代表性不足語言的轉錄語音樣本,采用知識共享署名許可協議(CC-BY)供全球開發者與研究人員免費獲取。此舉旨在支持針對特定語言需求定制化開發語音識別模型。
系統核心創新在于“自帶語言”(Bring Your Own Language)功能,該機制借鑒大型語言模型的上下文學習技術,允許用戶通過提供少量語音-文本配對樣本實現新語言適配。這種無需重新訓練模型的技術路徑,使得系統理論上可擴展至支持5400余種語言,遠超當前行業水平。雖然極低資源語言的識別質量仍待提升,但已為缺乏技術支撐的語言社區提供了可行解決方案。
在技術開源方面,meta以Apache 2.0協議開放了Omnilingual ASR全部模型代碼,配套數據集則采用CC-BY協議。模型家族提供從3億參數的輕量級版本到70億參數的高精度版本,適配從移動設備到云端服務的多樣化場景需求。所有模型均基于FAIR自主研發的PyTorch框架fairseq2構建,為開發者提供了靈活的技術基礎。











