智譜AI正式推出并開源GLM-4.6V系列多模態(tài)大模型,該系列包含兩個版本:面向云端與高性能集群的GLM-4.6V(106B-A12B)基礎(chǔ)版,以及適配本地部署與低延遲場景的GLM-4.6V-Flash(9B)輕量版。此次發(fā)布標志著GLM系列在多模態(tài)技術(shù)領(lǐng)域?qū)崿F(xiàn)重要突破,通過原生集成工具調(diào)用能力,為復雜視覺任務提供更高效的解決方案。
新模型在技術(shù)架構(gòu)上實現(xiàn)三大創(chuàng)新:首先將訓練上下文窗口擴展至128k tokens,顯著提升長文本處理能力;其次在視覺理解精度方面達到同參數(shù)規(guī)模模型的領(lǐng)先水平;最關(guān)鍵的是首次將Function Call(工具調(diào)用)能力原生融入視覺模型架構(gòu),構(gòu)建起從視覺感知到可執(zhí)行行動的完整鏈路。這種設(shè)計使得模型能夠直接處理圖像、文檔等多模態(tài)輸入,無需中間文本轉(zhuǎn)換環(huán)節(jié),有效減少信息損耗。
在性能優(yōu)化方面,GLM-4.6V系列展現(xiàn)出顯著優(yōu)勢。相較于前代GLM-4.5V,新系列API調(diào)用價格下降50%,輸入成本降至1元/百萬tokens,輸出成本為3元/百萬tokens。其中GLM-4.6V-Flash版本更提供免費使用權(quán)限,大幅降低開發(fā)者的接入門檻。同時,該系列已整合至GLM Coding Plan,針對八大類應用場景開發(fā)專用MCP工具,模型可自動匹配最優(yōu)接口進行調(diào)用。
技術(shù)文檔顯示,GLM-4.6V構(gòu)建了原生多模態(tài)工具調(diào)用框架:輸入端支持圖像、截圖、文檔頁面等直接作為參數(shù)傳入,輸出端可對統(tǒng)計圖表、網(wǎng)頁截圖、商品圖片等結(jié)果進行二次視覺理解。這種閉環(huán)設(shè)計使模型能夠處理圖文混排輸出、商品識別推薦等復雜任務,在輔助型Agent場景中表現(xiàn)尤為突出。例如在電商領(lǐng)域,模型可同時完成商品識別、價格比對和推薦理由生成等操作。
權(quán)威評測數(shù)據(jù)驗證了模型性能:在MMBench、MathVista、OCRBench等30余個主流多模態(tài)基準測試中,新模型較上一代取得全面提升。同等參數(shù)規(guī)模下,GLM-4.6V在多模態(tài)交互、邏輯推理和長上下文處理等關(guān)鍵指標上達到行業(yè)領(lǐng)先水平。具體對比顯示,9B版本的GLM-4.6V-Flash整體表現(xiàn)優(yōu)于Qwen3-VL-8B,而106B參數(shù)(12B激活)的GLM-4.6V性能可與參數(shù)規(guī)模達235B的Qwen3-VL-235B相媲美。
為促進技術(shù)生態(tài)發(fā)展,智譜AI同步開放了GLM-4.6V的完整技術(shù)資源,包括模型權(quán)重、推理代碼和示例工程。開發(fā)者可通過GitHub、Hugging Face和魔搭社區(qū)三大平臺獲取相關(guān)資源,具體地址分別為:https://github.com/zai-org/GLM-V、https://huggingface.co/collections/zai-org/glm-46v、https://modelscope.cn/collections/GLM-46V-37fabc27818446。此舉將加速多模態(tài)技術(shù)在智能客服、內(nèi)容創(chuàng)作、工業(yè)檢測等領(lǐng)域的落地應用。











