DeepSeek 今日宣布推出實(shí)驗(yàn)性大模型 DeepSeek-V3.2-Exp,該模型在長文本處理領(lǐng)域?qū)崿F(xiàn)了技術(shù)突破。通過引入自主研發(fā)的 DeepSeek Sparse Attention (DSA) 稀疏注意力機(jī)制,新模型在保持性能穩(wěn)定的同時(shí),顯著提升了訓(xùn)練與推理效率。
作為 DeepSeek-V3.1-Terminus 的升級版本,V3.2-Exp 的核心創(chuàng)新在于首次實(shí)現(xiàn)了細(xì)粒度稀疏注意力機(jī)制。這種技術(shù)通過動態(tài)調(diào)整注意力權(quán)重,在處理超長上下文時(shí)能夠精準(zhǔn)聚焦關(guān)鍵信息,減少無效計(jì)算。據(jù)官方披露,DSA 機(jī)制在幾乎不損失模型輸出質(zhì)量的前提下,將長文本場景下的資源消耗降低了約40%。
為驗(yàn)證新機(jī)制的實(shí)際效果,研發(fā)團(tuán)隊(duì)采用與前代模型完全相同的訓(xùn)練配置進(jìn)行對比測試。公開評測數(shù)據(jù)顯示,V3.2-Exp 在多項(xiàng)基準(zhǔn)任務(wù)中的表現(xiàn)與 V3.1-Terminus 持平,部分復(fù)雜推理任務(wù)甚至略有提升。這一結(jié)果證明,稀疏化改造并未影響模型的核心能力,反而通過優(yōu)化計(jì)算路徑提升了整體效率。
技術(shù)升級帶來的成本優(yōu)勢迅速轉(zhuǎn)化為市場策略。DeepSeek 同步宣布將 API 服務(wù)價(jià)格下調(diào)超50%,開發(fā)者調(diào)用單次推理的成本降至行業(yè)最低水平之一。官方負(fù)責(zé)人表示,此舉旨在降低 AI 技術(shù)應(yīng)用門檻,推動自然語言處理技術(shù)在更多垂直領(lǐng)域的落地。
目前,DeepSeek 官方 App、網(wǎng)頁端及小程序已完成版本更新,用戶可無縫體驗(yàn)新模型帶來的性能提升。技術(shù)社區(qū)普遍認(rèn)為,這種通過架構(gòu)創(chuàng)新實(shí)現(xiàn)效率躍升的路徑,為大規(guī)模模型優(yōu)化提供了新的研究方向。據(jù)內(nèi)部人士透露,團(tuán)隊(duì)正基于 DSA 機(jī)制研發(fā)下一代通用大模型,預(yù)計(jì)將在年內(nèi)推出更高效的版本。







