智譜近日正式推出并開源了GLM-4.6V系列多模態大模型,為人工智能領域注入新的技術活力。該系列包含兩個版本:面向云端與高性能集群場景的基礎版GLM-4.6V(106B-A12B),以及專為本地部署和低延遲應用設計的輕量版GLM-4.6V-Flash(9B)。這一舉措不僅豐富了多模態模型的技術生態,也為不同場景的用戶提供了更靈活的選擇。
在技術層面,GLM-4.6V實現了顯著突破。其訓練時的上下文窗口擴展至128k tokens,大幅提升了模型對長文本的處理能力。在視覺理解精度方面,該模型達到了同參數規模下的最優水平(SOTA),為復雜視覺任務提供了更可靠的支撐。更值得關注的是,GLM-4.6V首次將Function Call(工具調用)能力原生集成至視覺模型架構中,構建了從“視覺感知”到“可執行行動(Action)”的完整鏈路。這一創新為多模態智能體(Agent)在真實業務場景中的應用奠定了統一的技術基礎。
在商業化應用方面,GLM-4.6V系列展現了極高的性價比。相較于前代GLM-4.5V,新系列的API調用價格降低了50%,具體為輸入1元/百萬tokens、輸出3元/百萬tokens。其中,輕量版GLM-4.6V-Flash更以免費形式向用戶開放,進一步降低了技術門檻。該系列模型還融入了GLM Coding Plan,針對用戶高頻使用的8類場景,定向開發了專用MCP(大模型上下文協議)工具,顯著提升了模型在特定任務中的執行效率。










