阿里最新推出的Qwen3-Max-Thinking早期預覽版引發了AI領域的廣泛關注。這款推理模型作為Qwen 3系列中的頂級版本,雖然目前仍處于訓練中期階段,但已在多項高難度基準測試中展現出驚人實力。在AIME 2025數學競賽和哈佛-MIT數學錦標賽(HMMT)中,該模型憑借工具運用和測試時計算技術,實現了100%準確率的突破性表現。
該模型的技術細節尚未完全公開,但通義千問團隊透露其創新性地融合了思考模式與非思考模式。在Qwen Chat和阿里云API平臺開放試用后,開發者發現模型在智能體編程、常識推理以及數學科學領域展現出顯著提升。特別值得注意的是,模型在思考模式下會通過多輪驗證確保答案準確性,這種特性在處理復雜問題時尤為突出。
實際測試顯示,當面對AIME 2025競賽壓軸題時,Qwen3-Max-Thinking不僅反復驗證正確答案,還主動調用代碼解釋器從不同角度證明結果。整個推理過程持續約4-5分鐘,消耗1.2萬至1.5萬個token。這種深度推理能力雖然帶來較高計算成本,但用戶可通過1024-81920個token的可調預算控件進行靈活控制。
在智能體編程任務中,該模型與DeepSeek-V3.2的對比測試頗具看點。當要求開發開源項目分享網站的HTML原型時,Qwen3-Max-Thinking生成的1417行代碼雖然略顯冗長,但完整實現了需求功能。相比之下,DeepSeek-V3.2僅用787行代碼就完成了相似任務,顯示出不同模型在代碼效率上的差異。不過前者在需求分析準確性方面表現更優,生成的網頁原型更符合實際使用場景。
目前Qwen3-Max-Thinking僅支持文本到文本的單一模態,且未在Hugging Face等主流平臺開源。阿里云API提供的限時免費服務吸引了大量開發者嘗試,但完整基準測試結果尚未公布。隨著訓練進程推進,更多版本預計將陸續發布,這款專為高難度推理設計的模型能否在通用場景中保持優勢,仍有待進一步觀察驗證。











