人工智能領域迎來重要進展,DeepSeek近日正式發布DeepSeek-V3.2-Exp實驗版模型,該版本首次引入自主研發的稀疏注意力機制(DeepSeek Sparse Attention),在保持模型輸出質量的前提下,顯著提升了長文本場景下的訓練和推理效率。這一技術突破被視為邁向新一代架構的關鍵過渡方案。
據公開技術報告顯示,新模型在架構層面實現重大創新,通過引入閃電索引器(Lightning Indexer)和動態token篩選機制,將傳統注意力計算的復雜度從二次方級降至近似線性水平。實驗數據顯示,在H800 GPU環境下,長序列推理的硬件開銷降低超過40%,而模型在多數基準測試中的表現與前代持平,僅在特定推理任務中出現輕微波動。
技術團隊采用"預訓練+后訓練"的混合優化策略,預訓練階段分兩步實施:首先在稠密模式下進行短期訓練,確保索引器輸出與標準注意力機制對齊;隨后逐步引入稀疏選擇機制,幫助模型適應新的計算范式。后訓練環節則通過領域專家蒸餾和統一強化學習框架,將數學、編程等專項能力壓縮至通用模型中,有效避免多階段訓練導致的能力退化問題。
商業應用層面迎來重大利好,DeepSeek同步調整API定價策略,輸出token費用降幅超過50%。以百萬token計算,新模型輸出成本僅需3元,相當于前代V3.1系列的四分之一。這一調整立即引發行業響應,華為云、PPIO派歐云、優刻得等云服務平臺在24小時內完成部署,華為昇騰、寒武紀、海光信息等芯片廠商同步實現硬件適配。
開發者社區呈現熱烈反響,在HuggingFace和魔搭社區平臺,新模型上線首日即獲得數千次下載。部分開發者在10萬token規模的代碼庫測試中報告,推理速度提升達30%以上。但也有技術人員指出,在復雜編程任務中,新模型生成的代碼量較前代減少約15%,個別案例出現邏輯不完整的情況。知乎技術博主toyama nao的測評顯示,模型在工作記憶持續性和計算穩定性方面仍有改進空間。
產業適配速度創下新紀錄,寒武紀在模型發布4分鐘后即宣布完成vLLM-MLU推理引擎的適配,通過Triton算子開發和BangC融合算子技術,實現計算與通信的并行優化。華為昇騰團隊則開放了基于vLLM/SGLang框架的全部推理代碼,在128K長序列輸出場景下,首token生成延遲控制在2秒以內,持續輸出延遲低于30毫秒。
技術文檔同步公開引發研究熱潮,DeepSeek在GitHub平臺發布詳細技術報告和雙版本GPU算子實現(TileLang與CUDA),為全球研究者提供完整的實驗復現路徑。盡管官方強調這仍是實驗性版本,但社區討論已聚焦于稀疏注意力機制在超長文本處理中的潛在優勢,部分開發者開始探索其在金融報告分析、生物醫藥文獻處理等領域的落地可能。
當前,DeepSeek App、網頁端及小程序均已上線新模型,前代V3.1-Terminus的API接口仍保留運行,方便開發者進行性能對比。技術團隊透露,后續優化將重點提升模型在多輪對話中的狀態保持能力,并計劃在三個月內發布經過大規模真實場景驗證的穩定版本。