在大語言模型(LLM)領域,一場關于注意力機制的技術路線之爭正悄然展開。隨著國產模型在工程實踐中的持續推進,線性注意力機制這一曾被邊緣化的技術,正重新回到行業視野。其核心驅動力,既源于國內算力資源的有限性,也與智能體(Agent)技術落地的長遠目標密切相關。面對國外主流模型閉源、技術細節難以窺探的現狀,國內團隊正通過創新探索,試圖打破傳統注意力機制的瓶頸。
線性注意力的研究并非新事。早在2020年前后,學術界便涌現出大量相關論文,試圖將注意力機制的時間與內存復雜度從O(n2)降至O(n),以提升長序列處理效率。然而,早期嘗試普遍面臨精度損失的問題,導致其始終未能被應用于任何開源的、達到業界頂尖水平的大語言模型中。這一技術路線因此長期被視為“效率優先、精度妥協”的權宜之計。
轉折點出現在今年下半年。國產模型團隊率先掀起線性注意力的復興浪潮。6月,MiniMax團隊推出擁有4560億總參數、460億激活參數的MoE模型M1,首次采用“閃電注意力”(lightning attention)機制;8月,Qwen3團隊發布的Qwen3-Next模型,同樣引入線性注意力變體;9月,DeepSeek團隊發布的V3.2模型,則通過稀疏注意力(sparse attention)實現了亞二次方復雜度。這些模型共同的特點是,在大部分或全部網絡層中,用線性或亞二次方注意力替代了傳統的二次方注意力,為長文本處理和資源優化提供了新思路。
然而,技術路線的探索并非一帆風順。MiniMax團隊在發布M1模型后不久,便悄然轉向。其新推出的2300億參數模型M2,出人意料地放棄了線性注意力,重新采用常規注意力機制。團隊解釋稱,線性注意力在生產環境中表現“棘手”:盡管在常規提示任務中表現尚可,但在推理和多輪對話等關鍵場景中,精度問題顯著——而這兩項能力正是聊天會話和智能體應用的核心需求。這一決策一度引發行業對線性注意力實用性的質疑。
就在爭議聲中,Kimi團隊上周發布的Kimi Linear模型,為線性注意力注入了新活力。官方數據顯示,該模型通過混合注意力策略,實現了75%的KV緩存縮減和最高6倍的解碼吞吐量提升。其架構設計融合了輕量級線性注意力與重量級全注意力:每三個采用Kimi Delta Attention(KDA)機制的Transformer塊,搭配一個使用多頭潛在注意力(MLA)的塊,比例固定為3:1。這一設計既保留了線性注意力的高效性,又通過全注意力層彌補了精度短板。
Kimi Linear的創新不僅體現在混合策略上。其線性部分采用的KDA機制,是對Gated DeltaNet的進一步優化;全注意力部分則用MLA替代了標準模塊,通過潛在空間映射降低計算開銷。盡管論文未直接對比Qwen3-Next,但與Gated DeltaNet-H1模型(滑動窗口注意力與Gated DeltaNet的結合)相比,Kimi Linear在保持相同生成速度的同時,實現了更高的建模精度。目前,MLA模塊尚未整合輸出門(sigmoid bypass),但團隊計劃在未來版本中加入這一特性,以進一步提升模型表現。
這場技術路線之爭,折射出大語言模型發展中的深層矛盾:在算力資源有限與模型能力無限追求之間,如何找到平衡點?國產團隊的探索表明,線性注意力并非“非此即彼”的選擇,而是可以通過混合策略、機制優化等方式,在效率與精度間開辟新路徑。隨著Kimi Linear等模型的涌現,行業對線性注意力的認知正從“替代方案”轉向“補充工具”,其未來應用場景或遠超預期。











