螞蟻集團近日宣布正式開源一款名為dInfer的高性能推理框架,這是業界首個專為擴散語言模型設計的工程化解決方案。該框架通過算法與系統的深度協同優化,成功突破了擴散模型在推理效率上的長期瓶頸,為大規模語言模型的應用開辟了新的技術路徑。
在性能測試中,dInfer展現出顯著優勢。基于8塊NVIDIA H800GPU的節點測試顯示,其平均推理速度達到681Tokens/秒,較英偉達Fast-dLLM框架提升10.7倍;在代碼生成基準Humaneval上,單批次推理速度突破1011Tokens/秒,首次在開源領域實現擴散模型對自回歸模型的效率超越。與運行在vLLM框架上的Qwen2.5-3B模型相比,dInfer的推理速度達到其2.5倍,而模型精度保持相當水平。
擴散語言模型作為新興技術范式,將文本生成過程重構為"從噪聲中逐步恢復有序序列"的去噪機制。這種模式具備三大核心優勢:高度并行的計算特性、全局性的語義把握能力以及靈活的結構設計。以螞蟻集團與中國人民大學聯合研發的LLaDA-MoE系列模型為例,其在多項基準測試中已達到與頂尖自回歸模型相當的精度水平。然而,受限于計算成本高企、KV緩存管理低效、并行解碼困難等技術瓶頸,擴散模型的推理效率長期未能充分發揮。
dInfer框架通過模塊化設計破解這些難題。其架構包含四大核心組件:模型接入層支持LLaDA、LLaDA-MoE等主流擴散模型;KV緩存管理器優化內存使用效率;迭代管理器實現計算流程的動態調度;解碼策略模塊提供多種并行解碼方案。這種樂高式架構允許開發者自由組合優化策略,并在統一平臺上進行標準化評估。針對擴散模型特有的三大挑戰,每個模塊都集成了定制化解決方案。
技術突破的背后是系統性的工程創新。dInfer團隊通過重構計算圖、優化內存訪問模式、設計動態批處理機制等技術手段,有效降低了計算開銷。在代碼生成任務中,框架通過精細化控制迭代步長和注意力計算范圍,在保持生成質量的同時大幅提升處理速度。實驗數據顯示,在相同硬件條件下,dInfer的內存占用較傳統方案降低40%,而吞吐量提升3倍以上。
螞蟻集團技術團隊表示,dInfer的開源標志著擴散語言模型從實驗室研究向產業應用的關鍵跨越。該框架不僅為學術界提供了高性能研究平臺,更為工業界部署大規模擴散模型掃除了效率障礙。通過開放核心代碼和技術文檔,研發團隊希望吸引全球開發者共同完善生態,推動建立更高效的AI基礎設施標準。





