NVIDIA近日宣布推出CUDA 13.1版本,其中最引人注目的是全新引入的CUDA Tile編程模型。這項技術革新被業界視為CUDA平臺發展歷程中的關鍵突破,尤其針對新一代Blackwell架構GPU進行了深度優化,旨在顯著降低AI開發的復雜度并提升整體效率。
傳統CUDA編程模式要求開發者精細控制每個線程的執行路徑,而CUDA Tile則開創了全新的編程范式。開發者僅需將計算任務按"數據塊"維度進行劃分,通過更高層次的抽象描述算法邏輯,無需手動干預線程分配、Tensor Core啟用或任務調度等底層細節。這些工作將由編譯器和運行時系統自動完成,從而大幅減少硬件適配與性能調優的工作量。
Blackwell系列GPU成為首批支持CUDA Tile的硬件平臺,該技術未來將逐步擴展至更多GPU架構。為確保長期兼容性,NVIDIA同步推出了CUDA Tile IR虛擬指令集,這種中間表示層可使代碼在不同世代的Tensor Core架構上保持兼容運行。同時發布的cuTile Python庫,則讓AI開發者能夠直接在Python生態中運用Tile編程模型。
在AI算力需求持續攀升的背景下,Tensor數據結構已成為核心計算單元,Tensor Core和TMA等專用硬件的性能也在快速迭代。CUDA Tile的核心理念是將硬件復雜性封裝在底層,使開發者能夠更專注于模型架構與算法創新,而非陷入線程分配等技術細節,最終實現更高效的GPU開發體驗。











