DeepSeek 最新推出的實驗性模型 DeepSeek V3.2 引發行業關注,其自研的稀疏注意力機制 DSA(DeepSeek Sparse Attention)成為技術突破的核心亮點。盡管此次更新屬于小版本迭代,但 API 價格最高降幅達 75%,這一激進策略被業界稱為“價格屠夫式”操作,同時其技術架構的革新性也引發廣泛討論。
據 DeepSeek 官方公眾號披露,V3.2-Exp 版本是邁向新一代架構的關鍵過渡。該模型在 V3.1-Terminus 基礎上引入的 DSA 機制,已通過公開評測集驗證有效性,但仍需在真實用戶場景中接受大規模測試。官方特別強調,用戶反饋對排除潛在技術缺陷至關重要,并開放了專屬反饋通道(https://feedback.deepseek.com/dsa),呼吁開發者參與技術驗證。
DSA 機制的核心創新在于“先篩選后計算”的設計理念。其架構由兩大組件構成:閃電索引器(Lightning Indexer)作為輕量級篩選器,以每個 token 僅 128 維的超小鍵緩存快速掃描上下文,為每個查詢定位最相關的 2048 個關鍵信息;稀疏多潛在注意力(Sparse Multi-Latent Attention, MLA)則作為高精度計算單元,僅對篩選結果進行 512 維完整計算,避免無效信息干擾。這種分工模式在保證輸出質量的同時,顯著提升了長文本處理效率。
技術實現層面,DSA 的計算流程分為四步:首先通過查詢與鍵的投影融入旋轉位置編碼,并為每個注意力頭生成動態權重;隨后閃電索引器利用輕量緩存計算點積得分,結合逐頭權重進行掩碼與縮放處理;第三步從上下文中篩選出得分最高的 2048 個 token(若上下文長度不足則啟用全注意力模式);最終由稀疏 MLA 在優化后的 FlashMLA 計算核上執行精準注意力計算。整個過程通過 DeepSeek 自研的 DeepGEMM 算子實現硬件級優化,適配英偉達 Hopper 和 Blackwell 架構 GPU。
該機制的技術精髓體現在雙重優勢的平衡:通過 Top-k 篩選確保注意力聚焦于最相關內容,維持輸出精度;同時借助閃電索引器與稀疏計算核的協同,將計算復雜度與內存占用降至極低水平。網友@teortaxesTex 評論指出:“AGI 將是稀疏的”,而 DSA 機制通過微型全注意力索引器引導大規模稀疏計算,為高效通用人工智能開辟了新路徑。DeepSeek 在注意力機制領域的持續突破,彰顯了其技術迭代的前瞻性與執行力。