在空間推理基準(zhǔn)測試SpatialBench最新公布的榜單中,阿里旗下千問系列視覺理解模型展現(xiàn)出強勁實力。其Qwen3-VL與Qwen2.5-VL分別以13.5分和12.9分的成績占據(jù)前兩位,將Gemini 3.0 Pro Preview(9.6分)、GPT-5.1(7.5分)及Claude Sonnet 4.5等國際主流模型甩在身后。這一結(jié)果標(biāo)志著國產(chǎn)大模型在多模態(tài)空間推理領(lǐng)域?qū)崿F(xiàn)重要突破。
作為評估具身智能發(fā)展水平的關(guān)鍵指標(biāo),SpatialBench通過三維結(jié)構(gòu)解析、路徑規(guī)劃、空間關(guān)系推理等復(fù)雜任務(wù),檢驗?zāi)P吞幚沓橄蟾拍钆c實體空間映射的能力。測試不僅要求模型調(diào)用既有知識,更需在二維圖像與三維場景中完成動態(tài)推理,這對機器人導(dǎo)航、工業(yè)自動化等現(xiàn)實場景具有直接指導(dǎo)意義。目前人類在該測試中的基準(zhǔn)線約為80分,遠(yuǎn)超現(xiàn)有模型表現(xiàn),顯示技術(shù)仍存在顯著提升空間。
此次登頂?shù)腝wen3-VL于2025年正式開源,其前身Qwen2.5-VL則于2024年開放下載。新一代模型在視覺感知維度實現(xiàn)質(zhì)的飛躍,通過32項核心能力評估全面超越Gemini2.5-Pro與GPT-5。該模型創(chuàng)新性地整合工具調(diào)用能力,可基于圖像內(nèi)容自動觸發(fā)摳圖、搜索等操作,甚至能通過設(shè)計草圖或游戲視頻直接生成可執(zhí)行代碼,實現(xiàn)"視覺編程"功能。
針對機器人場景的優(yōu)化是Qwen3-VL的另一大亮點。通過強化3D空間檢測模塊,模型可精準(zhǔn)識別物體方位、視角變化及遮擋關(guān)系。在實物抓取測試中,搭載該模型的機械臂能準(zhǔn)確判斷遠(yuǎn)處蘋果的空間坐標(biāo),完成復(fù)雜環(huán)境下的精準(zhǔn)操作。這種能力在倉儲物流、精密制造等領(lǐng)域具有廣闊應(yīng)用前景。
為滿足不同開發(fā)需求,Qwen3-VL同步開源多個版本,涵蓋2B至235B參數(shù)規(guī)模,包含密集模型與混合專家(MoE)架構(gòu)。每個版本均提供指令微調(diào)版與推理優(yōu)化版,形成完整的產(chǎn)品矩陣。目前該系列模型已通過千問APP開放免費體驗,開發(fā)者可直接調(diào)用API進(jìn)行二次開發(fā),企業(yè)用戶則能基于開源代碼部署定制化解決方案。
據(jù)技術(shù)文檔披露,Qwen3-VL的訓(xùn)練數(shù)據(jù)集包含海量三維場景解析樣本,其神經(jīng)網(wǎng)絡(luò)架構(gòu)特別設(shè)計了空間注意力機制,使模型能像人類般建立"空間記憶"。這種設(shè)計顯著提升了模型在動態(tài)環(huán)境中的推理穩(wěn)定性,即使在部分遮擋或視角變化的情況下,仍能保持高精度識別。不過研發(fā)團(tuán)隊坦言,當(dāng)前模型在處理微觀分子結(jié)構(gòu)或復(fù)雜電路布局時,仍需依賴專業(yè)工具輔助,距離完全替代人類專家尚有差距。





