近日,人工智能領(lǐng)域迎來重要進(jìn)展——DeepSeek官方宣布推出并開源其全新大語(yǔ)言模型DeepSeek-V3.2-Exp。該模型通過引入創(chuàng)新性的稀疏注意力架構(gòu),在保持輸出質(zhì)量的同時(shí)顯著降低了計(jì)算資源消耗,尤其針對(duì)長(zhǎng)序列文本處理場(chǎng)景實(shí)現(xiàn)了效率突破。
作為實(shí)驗(yàn)性版本,V3.2-Exp被定位為新一代架構(gòu)的過渡性探索。其核心創(chuàng)新在于首次實(shí)現(xiàn)了細(xì)粒度稀疏注意力機(jī)制(DeepSeek Sparse Attention),該機(jī)制通過動(dòng)態(tài)篩選關(guān)鍵信息交互,在不影響模型性能的前提下,將長(zhǎng)文本場(chǎng)景下的訓(xùn)練與推理效率提升至全新水平。官方數(shù)據(jù)顯示,相較于前代V3.1-Terminus模型,新架構(gòu)在處理超長(zhǎng)文本時(shí)資源占用率下降30%以上。
技術(shù)團(tuán)隊(duì)透露,DSA架構(gòu)的突破性在于解決了傳統(tǒng)注意力機(jī)制在長(zhǎng)序列處理中的計(jì)算瓶頸。通過動(dòng)態(tài)構(gòu)建注意力連接圖,模型能夠自動(dòng)識(shí)別并強(qiáng)化重要信息關(guān)聯(lián),同時(shí)弱化冗余計(jì)算。這種設(shè)計(jì)既保持了模型對(duì)復(fù)雜語(yǔ)義關(guān)系的捕捉能力,又避免了全量注意力計(jì)算帶來的性能損耗。
伴隨模型升級(jí),DeepSeek同步調(diào)整了服務(wù)策略。目前官方App、網(wǎng)頁(yè)端及小程序均已完成版本更新,同時(shí)宣布API服務(wù)價(jià)格下調(diào)超50%。此次降價(jià)覆蓋所有調(diào)用場(chǎng)景,開發(fā)者使用成本顯著降低,此舉被視為推動(dòng)AI技術(shù)普惠化的重要舉措。







