12 月 2 日消息,科技媒體 Tom's Hardware 今天(12 月 2 日)發布博文,報道稱英偉達在最新論文中,詳述名為 TiDAR 的新型 AI 解碼方法,巧妙融合了自回歸(Autoregressive)與擴散(Diffusion)兩種模型機制,利用 GPU 的“空閑槽位”加速文本生成。
自回歸(Autoregressive)是一種生成方式,AI 必須根據上一個字才能猜出下一個字,像接龍一樣,只能按順序一個接一個生成。
擴散(Diffusion)常用于 AI 繪畫的技術,通過逐步去除噪點來生成內容,在 TiDAR 中,它被用來一次性“猜”出好幾個可能的詞,供后續篩選。
援引博文介紹,當前的語言模型通常一次生成一個 Token(詞元),這種逐個生成的機制導致了極高的計算成本和延遲。
TiDAR 的核心理念在于利用模型推理過程中未被使用的“空閑槽位”,在不犧牲生成質量的前提下,通過單步生成多個 Token 來大幅提升響應速度并降低 GPU 運行時長。
在技術原理方面,TiDAR 創新性地訓練單個 Transformer 模型同時執行兩項任務:標準的自回歸“下一詞預測”和基于擴散的“并行起草”。
不同于以往依賴獨立草稿模型的投機解碼(Speculative Decoding),TiDAR 通過結構化的注意力掩碼(Attention Mask)將輸入分為三個區域:前綴區、驗證區和起草區。
投機解碼是一種加速技術,先用一個小模型快速草擬一段話,再由大模型進行檢查和修正。TiDAR 試圖在同一個模型內完成這兩步。
這種設計讓模型在利用擴散頭并行起草新 Token 的同時,還能通過自回歸頭驗證這些草稿,最關鍵的是,它確保了 KV 緩存(KV Cache)的結構有效性,解決了早期擴散解碼器面臨的部署難題。
研究團隊基于 Qwen 系列模型進行了測試。在 Humaneval 和 GSM8K 等基準測試中,TiDAR 的準確率與基準模型持平甚至略有提升。
在速度方面,15 億參數版本的 TiDAR 模型實現了 4.71 倍的吞吐量增長;而 80 億參數版本的表現更為搶眼,吞吐量達到了 Qwen3-8B 基準的 5.91 倍。這表明在當前測試規模下,TiDAR 能有效利用 GPU 的顯存帶寬,在不增加額外顯存搬運的情況下生成更多 Token。
該媒體指出盡管實驗數據亮眼,TiDAR 目前仍面臨規模擴展的挑戰。論文中的測試僅限于 80 億參數以下的中小模型,且未涉及定制化的內核級優化(如 fused kernels),僅使用了標準的 PyTorch 環境。
隨著模型參數量和上下文窗口的擴大,計算密度可能會飽和,從而壓縮“多 Token 擴展”的成本優勢。研究人員表示,未來將在更大規模的模型上進行驗證,以確定該技術是否能成為云端大規模 AI 部署的實用替代方案。











