阿里巴巴Qwen團隊在人工智能領域取得重大突破,其研發的Qwen3-Omni模型實現文字、語音、圖像、視頻四模態的無損融合處理。該成果發表于arXiv平臺(編號2509.17765v1),經36項基準測試驗證,在32個項目中達到開源模型最優性能,其中22項創造新紀錄。
傳統多模態AI常面臨"技能失衡"困境,如同時掌握繪畫與寫作的人類可能顧此失彼。Qwen3-Omni通過創新架構破解這一難題,其核心"思考者-表達者"雙模塊設計,使系統既能深度分析多模態信息,又能以自然語音實時交互。實驗數據顯示,該模型在數學推理測試AIME25中取得65.0分,超越GPT-4o的26.7分;中英文語音識別錯誤率分別低至1.22%和2.48%。
技術實現層面,研究團隊構建了三項關鍵創新。首先開發專用音頻編碼器AuT,通過2000萬小時多語言音頻訓練,使系統具備動態注意力調節能力,可精準捕捉80毫秒級聲音細節。其次采用混合專家架構(MoE),為不同任務分配數學、藝術等專項"顧問",提升處理效率。最后實施三階段訓練策略,從模態對齊到通用訓練,最終實現32768令牌的長上下文處理,支持40分鐘連續音頻理解。
實時交互性能方面,該系統達到234毫秒的業界領先響應速度。通過多碼本自回歸生成技術,實現"邊思考邊表達"的流式語音輸出。工程優化上,分塊預填充機制與輕量級MTP模塊配合,使高并發場景下仍能保持低延遲。在119種文字語言理解、19種語音理解、10種語音生成的支持下,系統可實現跨語言語音克隆,用中文聲紋輸出英語內容。
專項能力開發取得顯著進展。音頻描述專家Qwen3-Omni-Captioner能識別語音內容、情緒狀態、背景噪音等復合信息,為視聽障礙者提供無障礙服務。思考模式版本Qwen3-Omni-Thinking則具備深度推理能力,在復雜積分計算中可分步驗證結果合理性,數學解題準確率較基礎版提升18%。
實驗證明多模態訓練存在協同效應。對比測試顯示,融合模型在MMLU文本測試中得分81.69,超越純文本模型的81.24;MMMU視覺測試得分59.33,優于純視覺模型的57.22。這表明音頻的時序特征可增強視覺序列理解,視覺的空間結構則提升音頻內容解析能力。
目前該模型已在GitHub和HuggingFace平臺開源,支持開發者進行二次開發。其低延遲、高并發的特性,在智能客服、遠程教育、多媒體創作等領域具有廣泛應用前景。研究團隊正持續優化多說話人識別、視頻OCR等功能,推動AI向更自然的人機交互方向發展。











