國產(chǎn)大模型領(lǐng)域迎來重要進(jìn)展——智譜公司正式推出GLM-4.6新一代模型。作為GLM系列最新力作,該模型在編程能力、長文本處理、邏輯推理、信息檢索及智能體應(yīng)用等核心場景實(shí)現(xiàn)顯著突破,標(biāo)志著國產(chǎn)大模型技術(shù)邁向新臺(tái)階。
在代碼生成領(lǐng)域,GLM-4.6通過公開基準(zhǔn)測試驗(yàn)證,其編程能力已與Claude Sonnet 4持平。模型上下文窗口容量從128K擴(kuò)展至200K,可支持更復(fù)雜的代碼生成與智能體任務(wù)處理。推理能力方面,新模型不僅實(shí)現(xiàn)邏輯推演精度提升,更創(chuàng)新性引入工具調(diào)用機(jī)制,支持在推理過程中動(dòng)態(tài)調(diào)用外部資源。信息檢索系統(tǒng)通過強(qiáng)化工具調(diào)用與智能體協(xié)同,顯著提升搜索結(jié)果的精準(zhǔn)度與實(shí)用性。
技術(shù)架構(gòu)層面,"模芯聯(lián)動(dòng)"方案成為最大亮點(diǎn)。GLM-4.6與寒武紀(jì)國產(chǎn)芯片完成深度適配,首次實(shí)現(xiàn)FP8+Int4混合量化部署的行業(yè)突破。該方案通過模塊化量化策略,對模型不同組件實(shí)施差異化處理:核心參數(shù)層采用Int4量化,將權(quán)重體積壓縮至FP16格式的1/4,有效緩解顯存壓力;臨時(shí)數(shù)據(jù)層通過Int4實(shí)現(xiàn)內(nèi)存高效壓縮,同時(shí)將精度損失控制在可接受范圍;數(shù)值敏感模塊則采用FP8格式,確保關(guān)鍵計(jì)算的精度穩(wěn)定性。這種動(dòng)態(tài)資源分配機(jī)制,在保持模型性能的前提下,大幅降低推理成本。
混合量化技術(shù)的突破性在于其精細(xì)化設(shè)計(jì)。實(shí)驗(yàn)數(shù)據(jù)顯示,采用Int4量化的核心參數(shù)占模型總內(nèi)存的60%-80%,在推理過程中,臨時(shí)對話數(shù)據(jù)經(jīng)壓縮后內(nèi)存占用顯著下降,而FP8格式確保數(shù)值計(jì)算模塊的精度損失微乎其微。這種"按需分配"的量化策略,既解決了低算力硬件的適配難題,又保障了高精度計(jì)算場景的需求。
生態(tài)建設(shè)方面呈現(xiàn)多點(diǎn)突破態(tài)勢。除寒武紀(jì)外,摩爾線程宣布其新一代GPU通過vLLM推理框架完成GLM-4.6適配,在原生FP8精度下實(shí)現(xiàn)穩(wěn)定運(yùn)行。該成果驗(yàn)證了MUSA架構(gòu)及全功能GPU在生態(tài)兼容性和快速適配能力上的優(yōu)勢,為國產(chǎn)AI硬件與大模型的協(xié)同發(fā)展提供重要范本。
隨著寒武紀(jì)、摩爾線程等國產(chǎn)芯片企業(yè)相繼完成適配,我國已構(gòu)建起從芯片到模型的完整技術(shù)鏈條。這種軟硬件協(xié)同創(chuàng)新模式,不僅加速了自主可控AI生態(tài)的形成,更為產(chǎn)業(yè)應(yīng)用開辟新路徑。據(jù)悉,GLM-4.6與國產(chǎn)芯片的組合方案將通過智譜MaaS平臺(tái)率先開放,為企業(yè)級用戶和公眾提供高效、經(jīng)濟(jì)的AI服務(wù)解決方案。