阿里云通義千問團(tuán)隊(duì)近日宣布開源新一代多模態(tài)視覺語言模型Qwen3-VL系列,包含Qwen3-VL-30B-A3B-Thinking和Qwen3-VL-30B-A3B-Instruct兩個(gè)版本。該系列模型在繼承前代技術(shù)優(yōu)勢的基礎(chǔ)上,重點(diǎn)強(qiáng)化了視覺理解與跨模態(tài)交互能力,同時(shí)保持了卓越的純文本處理性能。
據(jù)技術(shù)文檔披露,Qwen3-VL系列實(shí)現(xiàn)了六大核心功能突破:在視覺代理領(lǐng)域,模型可精準(zhǔn)識(shí)別并操作電子設(shè)備界面元素,完成工具調(diào)用與任務(wù)執(zhí)行;視覺編碼模塊支持從多媒體內(nèi)容直接生成Draw.io流程圖、HTML/CSS/JS代碼;空間感知系統(tǒng)具備三維空間推理能力,能準(zhǔn)確判斷物體位置關(guān)系與遮擋狀態(tài);長上下文處理窗口擴(kuò)展至256K,通過擴(kuò)展技術(shù)可支持百萬級(jí)token,實(shí)現(xiàn)長視頻與書籍的秒級(jí)索引與完整回憶。
在專業(yè)領(lǐng)域應(yīng)用方面,模型展現(xiàn)出顯著優(yōu)勢。STEM學(xué)科推理模塊可進(jìn)行因果關(guān)系分析,提供基于邏輯推導(dǎo)的解決方案;視覺識(shí)別系統(tǒng)通過高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù),實(shí)現(xiàn)了對(duì)名人、動(dòng)漫角色、地標(biāo)建筑等20余類實(shí)體的精準(zhǔn)識(shí)別;OCR功能支持32種語言識(shí)別,在低光照、模糊圖像等復(fù)雜場景下保持穩(wěn)定性能,特別優(yōu)化了古文字、專業(yè)術(shù)語的識(shí)別準(zhǔn)確率。
華為計(jì)算生態(tài)迅速響應(yīng)技術(shù)迭代,其昇騰AI平臺(tái)在模型發(fā)布當(dāng)日即完成適配部署。通過LLaMA Factory和vLLM框架,Qwen3-VL系列實(shí)現(xiàn)"零日適配",開發(fā)者可直接調(diào)用優(yōu)化后的推理接口。這種快速響應(yīng)機(jī)制延續(xù)了此前DeepSeek-V3.2-Exp模型的成功經(jīng)驗(yàn)——該架構(gòu)9月29日開源后,華為團(tuán)隊(duì)當(dāng)晚即完成基于vLLM/SGLang的推理框架適配,并開源全部算子實(shí)現(xiàn)與部署代碼。
技術(shù)社區(qū)反饋顯示,Qwen3-VL系列在多模態(tài)基準(zhǔn)測試中表現(xiàn)突出。其文本-視覺融合機(jī)制實(shí)現(xiàn)了無損信息處理,在跨模態(tài)問答、視覺推理等場景下達(dá)到與純語言大模型相當(dāng)?shù)睦斫馑健i_發(fā)者可通過華為昇騰社區(qū)獲取優(yōu)化后的模型權(quán)重與部署指南,加速AI應(yīng)用的場景落地。











