深度求索公司近日推出了一款名為DeepSeek-V3.2-Exp的實驗性模型,該模型在長文本處理效率方面實現了顯著提升。據官方介紹,這款新模型是在V3.1-Terminus版本的基礎上進行升級,采用了創新的稀疏注意力架構,旨在優化長文本場景下的訓練與推理性能。
技術團隊在V3.2-Exp中引入了DeepSeek Sparse Attention架構,通過動態分配計算資源,有效減少了長文本處理過程中的冗余計算。實驗數據顯示,該架構在保持模型精度的同時,顯著降低了內存占用和計算成本,特別適用于需要處理超長文本的應用場景。
目前,V3.2-Exp已在標準評測集上完成初步驗證,但官方強調仍需通過大規模實際應用測試來進一步優化。為支持這一過程,深度求索公司決定臨時保留V3.1-Terminus版本的API接口,允許研究人員和開發者同時調用新舊兩個模型進行對比測試,從而更直觀地評估性能差異。
這種雙版本并行的測試策略,不僅為模型優化提供了寶貴的真實場景數據,也方便了開發者根據實際需求選擇更適合的版本。公司表示,后續將根據用戶反饋持續調整模型參數,以提升在復雜任務中的表現。






