科技領域迎來一項創新突破,英偉達在最新發布的論文中,詳細介紹了一種名為TiDAR的新型人工智能解碼方法。該方法巧妙融合了自回歸與擴散兩種模型機制,旨在利用GPU的閑置資源加速文本生成過程。
自回歸模型是一種常見的生成方式,其特點在于AI必須依據前一個字符來推測下一個字符,如同玩接龍游戲般按順序逐個生成內容。而擴散模型則多應用于AI繪畫領域,通過逐步消除噪點的方式生成圖像或文本。在TiDAR中,擴散機制被賦予新任務——一次性預測多個可能的詞匯,為后續篩選提供更多選項。
傳統語言模型通常采用逐個生成Token的方式,這種機制雖然穩定,但計算成本高昂且延遲顯著。TiDAR的核心創新在于利用模型推理過程中未被充分利用的GPU“空閑槽位”,通過單步生成多個Token的方式,在不降低生成質量的前提下大幅提升響應速度,同時減少GPU運行時間。
從技術原理來看,TiDAR通過訓練單個Transformer模型同時執行兩項任務:一是標準的自回歸“下一詞預測”,二是基于擴散的“并行起草”。這種設計打破了以往依賴獨立草稿模型的投機解碼模式——后者需先用小模型快速生成草稿,再由大模型修正。TiDAR通過結構化的注意力掩碼將輸入劃分為前綴區、驗證區和起草區,實現了在同一模型內完成草稿生成與驗證的雙重功能。
這種架構不僅允許模型利用擴散頭并行生成新Token,還能通過自回歸頭實時驗證草稿的準確性。更關鍵的是,它解決了早期擴散解碼器在部署時面臨的KV緩存結構失效問題,確保了模型運行的穩定性。
研究團隊基于Qwen系列模型展開測試,在Humaneval和GSM8K等基準測試中,TiDAR的準確率與基準模型持平甚至略有提升。速度測試顯示,15億參數版本的TiDAR模型吞吐量增長4.71倍,80億參數版本的表現更為突出,吞吐量達到Qwen3-8B基準的5.91倍。這表明該技術能有效利用GPU顯存帶寬,在無需額外顯存搬運的情況下生成更多Token。
盡管實驗數據表現優異,但TiDAR仍面臨規模擴展的挑戰。當前測試僅限于80億參數以下的中小模型,且未采用定制化的內核級優化,僅使用標準PyTorch環境。隨著模型參數量和上下文窗口的擴大,計算密度可能趨于飽和,從而削弱“多Token擴展”的成本優勢。研究人員計劃在更大規模的模型上進一步驗證該技術,以評估其作為云端大規模AI部署替代方案的可行性。











