DeepSeek今日宣布推出實驗性版本DeepSeek-V3.2-Exp模型,該版本作為新一代架構研發的過渡性成果,在長文本處理領域實現了關鍵技術突破。此次更新不僅引入了自主研發的DeepSeek Sparse Attention(DSA)稀疏注意力機制,更通過嚴格的對比測試驗證了其技術有效性。
研發團隊在V3.1-Terminus版本基礎上,通過引入DSA機制實現了細粒度注意力控制。這項創新技術能夠在保持模型輸出質量的前提下,顯著提升長文本場景下的訓練與推理效率。據技術文檔披露,DSA機制通過動態調整注意力權重分配,使計算資源更集中于關鍵信息區域,從而減少無效計算。
為確保技術評估的嚴謹性,開發團隊將V3.2-Exp的訓練參數配置與前代版本完全對齊。在涵蓋自然語言處理、邏輯推理等領域的20余個公開評測集中,新版本各項指標均與V3.1-Terminus持平,部分長文本任務處理速度提升達40%。這種在效率與效果間的平衡,驗證了稀疏注意力機制的實際應用價值。
伴隨模型升級,DeepSeek同步推出API服務降價方案,開發者調用成本降幅超過50%。這一調整旨在降低技術創新的應用門檻,促進稀疏注意力技術的生態發展。目前用戶可通過官方App、網頁端及小程序體驗新版本,各平臺已完成同步更新。
考慮到實驗性版本的技術特性,研發團隊為V3.1-Terminus保留了專用API接口,方便用戶進行AB測試對比。這種雙版本并行的策略,既保障了現有服務的穩定性,也為新技術驗證提供了真實場景支持。據開源社區消息,V3.2-Exp模型代碼已在Huggingface與魔搭平臺開放下載。






