DeepSeek最新發布的v3.2版本中,一個未在論文中詳細闡述的技術細節引發了廣泛關注——開源TileLang版本算子的引入。該技術雖僅在官方公告中短暫提及,卻憑借其顯著優勢迅速成為開發者熱議的焦點,其受關注程度甚至超越了同期推出的新稀疏注意力機制DSA。
海外開發者社區同樣注意到了這一變化。與傳統使用OpenAI開發的Triton語言不同,DeepSeek選擇了TileLang作為開發工具。有開發者反饋稱,TileLang以其簡潔優雅的設計令人印象深刻,僅用不到100行代碼便實現了比Flash Attention 2原版快30%的注意力機制。
TileLang的定位是一種面向GPU內核開發的領域專用語言,其性能可與英偉達CUDA相媲美。該語言采用Python式語法,基于TVM編譯器構建底層架構,通過將調度空間與數據流解耦,使開發者能夠專注于算法邏輯,而將內存布局、線程綁定等底層優化工作交給編譯器自動完成。這種設計顯著降低了高性能內核的開發門檻。
該語言的另一大優勢在于與國產算力生態的深度適配。華為昇騰在DeepSeek發布后第一時間宣布了對TileLang的支持,沐曦集成電路也參與了相關適配工作。在華為全聯接大會2025開發者日上,TileLang團隊展示了其將FlashAttention算子開發代碼量從500余行縮減至80行的成果,同時保持了與官方版本相當的性能表現。
TileLang的研發團隊以北京大學計算機學院為核心,包括副研究員楊智、博士研究生王磊及董宇騏等成員。2025年1月,該語言在GitHub開源后迅速獲得1.9k標星。其核心設計理念是將"Tile"作為編程模型的核心概念,通過顯式抽象控制數據在全局內存、共享內存和寄存器之間的流動,并提供從硬件無關高層接口到線程原語底層控制的完整編程接口體系。
DeepSeek與TileLang的淵源可追溯至2025年6月的北京智元大會。當時在DeepSeek實習的北大博士袁境陽在報告中提及TileLang的算子實現效率優勢,引發團隊關注。此后,TileLang團隊以DeepSeek發布的FlashMLA內核為基準進行測試,結果顯示在H100顯卡上,TileLang編寫的內核解碼速度與FlashMLA相當,驗證了其在實際應用中的可行性。
在v3.2版本中,DeepSeek團隊采用TileLang進行快速原型開發,隨后通過更底層的方法進一步優化性能。技術報告顯示,通過內核層面共享k-v緩存的設計,配合DSA閃電索引器機制,顯著提升了計算效率。TileLang文檔中強調的中間數據緩存策略,正是實現這一性能突破的關鍵技術之一。
TileLang團隊成員王磊在多個技術場合分享了該語言的設計哲學。其核心在于通過可自定義的注解和原語,將內存布局、張量化等優化工作封裝為編譯器功能,使開發者能夠像編寫高級語言一樣開發高性能內核。這種設計理念在DeepSeek v3.2的實際應用中得到了充分驗證,證明了TileLang不僅能夠用于算法原型開發,更能支撐大規模模型訓練的實際需求。
相關技術資料顯示,TileLang的GitHub倉庫提供了完整的技術文檔和示例代碼,DeepSeek v3.2的技術報告則詳細闡述了TileLang在實際模型訓練中的應用效果。開發者可通過以下鏈接獲取更多信息:
DeepSeek V3.2技術報告:https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
TileLang開源項目:https://github.com/tile-ai/tilelang