近日,國內(nèi)AI芯片領(lǐng)域傳來重要進(jìn)展——寒武紀(jì)宣布完成對深度求索公司最新實(shí)驗(yàn)性模型DeepSeek-V3.2-Exp的適配工作,并同步開源其自主研發(fā)的大模型推理引擎vLLM-MLU的完整代碼。這一動作不僅展現(xiàn)了寒武紀(jì)在AI軟硬件協(xié)同領(lǐng)域的深厚積累,更為國內(nèi)AI開發(fā)者社區(qū)注入了新的技術(shù)動能。
作為深度求索推出的實(shí)驗(yàn)性模型,DeepSeek-V3.2-Exp在架構(gòu)設(shè)計(jì)上突破傳統(tǒng),通過引入Sparse Attention機(jī)制顯著提升了模型處理復(fù)雜任務(wù)的能力。該機(jī)制通過動態(tài)稀疏化注意力權(quán)重,在保持模型精度的同時(shí)大幅降低計(jì)算資源消耗,特別適用于長序列數(shù)據(jù)處理場景。寒武紀(jì)研發(fā)團(tuán)隊(duì)敏銳捕捉到這一技術(shù)特性,迅速啟動適配工作。
在技術(shù)實(shí)現(xiàn)層面,寒武紀(jì)采用雙軌優(yōu)化策略:一方面通過Triton算子實(shí)現(xiàn)模型與寒武紀(jì)MLU架構(gòu)的快速映射,另一方面運(yùn)用BangC融合算子對關(guān)鍵計(jì)算路徑進(jìn)行深度優(yōu)化。這種軟硬件協(xié)同優(yōu)化的方式,使模型在寒武紀(jì)平臺上的推理效率提升達(dá)40%,同時(shí)將長序列數(shù)據(jù)的訓(xùn)練成本壓縮近三分之一。對于企業(yè)用戶而言,這意味著可以用更低的硬件投入完成同等規(guī)模的AI計(jì)算任務(wù)。
值得注意的是,此次開源的vLLM-MLU引擎具有顯著的行業(yè)價(jià)值。該引擎針對寒武紀(jì)MLU系列芯片特性進(jìn)行定制開發(fā),支持動態(tài)批處理、內(nèi)存優(yōu)化等高級特性,開發(fā)者可基于開源代碼進(jìn)行二次開發(fā)。目前,GitHub項(xiàng)目倉庫已收錄完整的實(shí)現(xiàn)文檔和示例代碼,社區(qū)反饋顯示,該引擎在金融、醫(yī)療等長文本處理密集型領(lǐng)域展現(xiàn)出突出優(yōu)勢。
深度求索公司技術(shù)負(fù)責(zé)人表示,寒武紀(jì)團(tuán)隊(duì)在兩周內(nèi)就完成了從模型分析到完整適配的全流程工作,這種技術(shù)響應(yīng)速度在行業(yè)內(nèi)極為罕見。雙方技術(shù)團(tuán)隊(duì)正在探討下一代模型的聯(lián)合研發(fā)計(jì)劃,重點(diǎn)攻關(guān)模型量化與異構(gòu)計(jì)算架構(gòu)的深度融合。
對于開發(fā)者社區(qū)而言,vLLM-MLU的開源意味著獲得了一個(gè)高性價(jià)比的AI推理解決方案。某云計(jì)算平臺工程師測試后指出,相比通用推理框架,該引擎在寒武紀(jì)設(shè)備上的端到端延遲降低28%,特別適合對實(shí)時(shí)性要求嚴(yán)苛的智能客服、代碼生成等應(yīng)用場景。
目前,寒武紀(jì)已建立專門的技術(shù)支持團(tuán)隊(duì),為開發(fā)者提供從環(huán)境部署到性能調(diào)優(yōu)的全流程指導(dǎo)。項(xiàng)目GitHub倉庫顯示,開源首周即獲得超過800次star標(biāo)記,社區(qū)貢獻(xiàn)者提交的優(yōu)化補(bǔ)丁涉及內(nèi)存管理、算子并行等多個(gè)關(guān)鍵模塊。
技術(shù)專家分析認(rèn)為,此次合作標(biāo)志著國內(nèi)AI產(chǎn)業(yè)鏈在模型-芯片協(xié)同優(yōu)化領(lǐng)域邁出關(guān)鍵一步。隨著vLLM-MLU生態(tài)的完善,預(yù)計(jì)將催生更多基于寒武紀(jì)架構(gòu)的創(chuàng)新AI應(yīng)用,推動智能計(jì)算技術(shù)向更高效、更經(jīng)濟(jì)的方向發(fā)展。
項(xiàng)目開源地址:https://github.com/Cambricon/vllm-mlu








