2025年9月29日,DeepSeek-V3.2-Exp發(fā)布并開源,引入稀疏Attention架構(gòu)。昇騰已快速基于vLLM/SGLang等推理框架完成適配部署,實現(xiàn)DeepSeek-V3.2-Exp 0day支持,并面向開發(fā)者開源所有推理代碼和算子實現(xiàn)。
昇騰0Day適配和參考實踐
昇騰在DeepSeek-V3.2-Exp一發(fā)布開源即實現(xiàn)了DeepSeek-V3.2-Exp BF16模型部署,并在CANN平臺上完成對應(yīng)的優(yōu)化適配,整體部署策略沿用DeepSeek的大EP并行方案,針對稀疏DSA結(jié)構(gòu),疊加實現(xiàn)長序列親和的CP并行策略,兼顧時延和吞吐,在128K長序列下能夠保持TTFT低于2秒、TPOT低于30毫秒的推理生成速度。
NPU DeepSeek-V3.2-Exp推理優(yōu)化實踐:
https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_inference_guide.md
昇騰針對DeepSeek-V3.2-Exp架構(gòu)中兩個全新的算子:Lightning Indexer (LI) 以及Sparse Flash Attention (SFA),針對性地進(jìn)行算子Tiling設(shè)計、Cube核與 Vector核間的流水優(yōu)化、計算流程的實現(xiàn)優(yōu)化等,模型和融合Kernel均已開源。
NPU DeepSeek-V3.2-Exp Ascend C融合算子優(yōu)化:
https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_ascendc_operator_guide.md
為進(jìn)一步提高昇騰融合算子的編程易用性,昇騰CANN首次推出大融合算子的編程體系PyPTO,旨在簡化算子開發(fā)流程,同時保持高性能計算能力。該框架創(chuàng)新性地采用PTO(Parallel Tensor/Tile Operation)編程范式,以Tensor為基本數(shù)據(jù)表達(dá)方式,構(gòu)建計算圖,實現(xiàn)高效計算與優(yōu)化。目前在昇騰上已經(jīng)基于PyPTO完成DeepSeek-V3.2-Exp模型中DeepSeek Indexer Attention和Lightning indexer算子的開發(fā)實踐,僅需幾百行代碼即可完成動態(tài)Shape算子編程和算子整網(wǎng)運行。
基于PyPTO的Lightning Indexer和DeepSeek Indexer Attention算子開發(fā)實踐:
https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_pypto_operator_guide.md
在昇騰上基于vLLM、SGLang推理框架部署和TileLang算子編程實踐
昇騰不僅提供了DeepSeek-V3.2-Exp的官方參考實踐,也同步支持vLLM和SGLang等業(yè)界主流大模型推理框架部署,提供完整功能,能夠讓廣泛的開發(fā)者在社區(qū)直接下載相關(guān)代碼體驗DeepSeek-V3.2-Exp模型,可以在昇騰實現(xiàn)融合算子、稀疏訪存、多核并行計算等深度優(yōu)化能力,并持續(xù)優(yōu)化DeepSeek-V3.2-Exp在主流社區(qū)的推理性能。
大模型推理框架vLLM及昇騰實現(xiàn):
https://github.com/vllm-project/vllm-ascend/tree/v0.9.1-dev/examples/deepseek.md
大模型推理框架SGLang及昇騰實現(xiàn):
https://github.com/sgl-project/sglang/issues/11060
TileLang是由Tile-AI社區(qū)發(fā)起的Tile-level的類Python的AI編程語言(DSL)項目,在Tile粒度上進(jìn)行編程和編譯,實現(xiàn)模型算子和硬件的高效協(xié)同。昇騰已經(jīng)實現(xiàn)TileLang的Sparse Flash Attention和Lightning Indexer算子開發(fā),后續(xù)將支持更完備的NPU算子并提升性能和泛化性。
NPU DeepSeek-V3.2-Exp TileLang算子開發(fā)實踐:
https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_tilelang_operator_guide.md
TileLang-Ascend開源社區(qū):
https://github.com/tile-ai/tilelang-ascend
昇騰憑借敏捷協(xié)同優(yōu)化能力,0Day高效完成DeepSeek-V3.2-Exp適配,不僅深度開放自研編程語言AscendC及PyTorch算子源碼,也積極擁抱開源生態(tài),同步實現(xiàn)vLLM、SGLang等主流框架的快速支持,并攜手開源社區(qū)Tile-AI共同開源NPU編程項目TileLang-Ascend。我們誠摯期待全球開發(fā)者加入昇騰社區(qū),基于昇騰軟硬件平臺進(jìn)行研究和創(chuàng)新,在Agent AI、內(nèi)容理解等長文本新應(yīng)用場景帶來更好的用戶體驗,攜手推進(jìn)AI產(chǎn)業(yè)邁向新高度。