在AIME 2025數學競賽中,該模型以滿分成績通過測試,其解題過程展現出獨特的驗證機制。面對壓軸題時,模型不僅反復驗證答案,還主動調用代碼解釋器從多角度論證結果。整個推理過程持續4-5分鐘,消耗1.2萬至1.5萬個token,這種深度思考模式顯著區別于傳統模型。
編程任務測試中,模型開發開源項目分享網站的HTML原型時,雖然生成1417行代碼,但網頁設計完全符合功能需求。對比測試顯示,DeepSeek-V3.2完成相同任務僅需787行代碼,這種差異反映出Qwen3-Max-Thinking在代碼優化方面仍有提升空間。不過其輸出的網頁結構清晰,基礎功能完整,僅在樣式細節上稍顯不足。
該模型在常識推理測試中同樣表現優異,能準確識別邏輯陷阱。測試人員發現,其回復風格簡潔直接,完全聚焦問題核心,這種"去人性化"的交互方式在商務場景中頗具優勢。有用戶評價稱,模型的回復風格更接近專業顧問,避免了情感化表達可能帶來的干擾。
目前用戶可通過Qwen Chat和阿里云API體驗該模型,但需注意其僅支持文本到文本的單一模態。API服務采用限時免費策略,用戶可在1024至81920個token的思考預算范圍內自主調節,這種設計既控制了計算成本,又保證了推理深度。測試顯示,復雜任務消耗的token數量明顯高于常規模型,這可能成為大規模應用的主要限制因素。
行業觀察者指出,Qwen3-Max-Thinking的定位可能更偏向專業領域,其強大的推理能力在科研、金融分析等場景具有應用潛力。雖然尚未公布完整基準測試結果,但現有表現已引發廣泛期待。社交媒體上,用戶紛紛詢問模型開源時間,特別是能否登陸Hugging Face平臺,反映出開發者社區的高度關注。
這款模型作為Qwen3系列的新成員,延續了阿里在大模型領域的技術積累。此前發布的Qwen3系列最大模型參數量已突破萬億規模,此次推理專項模型的推出,標志著阿里在AI技術布局上更加精細化。隨著訓練進程推進,后續版本有望在效率優化和場景適配方面帶來更多突破。











