DeepSeek 今日正式推出實驗性版本 DeepSeek-V3.2-Exp 模型,該版本作為新一代架構(gòu)研發(fā)的過渡性成果,在長文本處理效率方面實現(xiàn)了突破性進展。此次更新引入了自主研發(fā)的 DeepSeek Sparse Attention(DSA)稀疏注意力機制,通過細粒度注意力分配策略,在保持模型性能穩(wěn)定的前提下,顯著提升了長文本場景下的訓(xùn)練與推理效率。
據(jù)技術(shù)文檔披露,DSA 機制首次實現(xiàn)了動態(tài)稀疏注意力分配,通過智能識別文本關(guān)鍵信息區(qū)域,將計算資源集中于核心語義單元。實驗數(shù)據(jù)顯示,該機制在處理超長文本時,可將計算資源占用降低 40% 以上,同時保證模型輸出質(zhì)量與基準(zhǔn)版本 V3.1-Terminus 持平。為確保評估結(jié)果的客觀性,研發(fā)團隊嚴(yán)格對齊兩個版本的訓(xùn)練參數(shù)與數(shù)據(jù)配置,在涵蓋金融、法律、科技等領(lǐng)域的 20 余個公開評測集中,V3.2-Exp 的綜合表現(xiàn)與前代版本誤差率控制在 0.3% 以內(nèi)。
伴隨模型升級,DeepSeek 同步調(diào)整了商業(yè)化策略。即日起,開發(fā)者通過 API 調(diào)用新模型的費用將下降超 50%,此舉旨在降低長文本應(yīng)用的技術(shù)門檻。平臺負(fù)責(zé)人表示,價格調(diào)整基于 DSA 機制帶來的算力優(yōu)化成果,希望借此推動智能文本處理技術(shù)在更多行業(yè)的普及應(yīng)用。
目前,DeepSeek 官方應(yīng)用、網(wǎng)頁端及小程序已完成版本更新。考慮到實驗性版本仍需大規(guī)模真實場景驗證,平臺將并行維護 V3.1-Terminus 的 API 接口,為開發(fā)者提供對比測試環(huán)境。技術(shù)團隊特別提醒,雖然 V3.2-Exp 已通過多項基準(zhǔn)測試,但在處理特定領(lǐng)域?qū)I(yè)文本時,仍建議結(jié)合實際業(yè)務(wù)需求進行適配性驗證。
此次更新引發(fā)開發(fā)者社區(qū)廣泛關(guān)注,多位技術(shù)專家指出,稀疏注意力機制的應(yīng)用標(biāo)志著大模型架構(gòu)優(yōu)化進入新階段。有從業(yè)者測算,按當(dāng)前降價幅度計算,日均處理百萬級字符的應(yīng)用每月可節(jié)省數(shù)萬元成本。值得注意的是,平臺同步更新的還有微信三端功能升級等系列技術(shù)動態(tài)。







