在AI技術飛速發展的當下,算力已成為推動行業前進的核心動力。提到算力,英偉達的顯卡總是繞不開的話題。然而,要讓這些顯卡真正發揮效能,并非簡單的硬件安裝就能實現,背后需要一套完善的軟件和算法支持。CUDA,作為英偉達精心打造的軟件生態,正是其穩固市場地位的關鍵所在。近日,CUDA迎來了13.1版本的重大更新,這一版本被英偉達譽為自2006年發布以來最具里程碑意義的功能拓展。
此次更新中,英偉達推出了全新的CUDA Tile編程模型,并配套了一系列工具、文檔和調度特性。這一創新引起了半導體及AI領域的廣泛關注,不少專家認為它將深刻改變整個行業格局。那么,一個編程模型的更新,為何能引發如此大的反響?
CUDA Tile的引入,標志著“模塊化”編程時代的到來。過去,使用CUDA進行編程需要開發者自行管理核心變量、手動分配內存參數,并按照SIMT模型進行編程。而CUDA Tile則簡化了這一過程,它將數據在算法層面切割成獨立的矩陣塊,開發者只需針對這些矩陣塊的用途進行編程,無需再操心后續的運轉和專用計算單元的調用,這些工作將由編譯器和運行時系統自動完成。
為了支撐CUDA Tile,英偉達在13.1版本中引入了新的虛擬指令集CUDA Tile IR,并提供了cuTile Python這一DSL。這使得開發者能夠用熟悉的Python語言編寫矩陣塊內核,再由Tile IR負責將其映射到底層硬件。這種做法在計算行業并不罕見,華為、阿里等企業也在采用類似的圖塊化編程技術來優化計算效率。
除了CUDA Tile,13.1版本還對基礎功能模塊進行了優化。例如,新的Green Contexts技術讓GPU的SM能夠根據實際運行指令進行資源分割,優先滿足低時延任務的需求,從而提升了云服務器對在線服務的支持能力。同時,Multi-Process Service也得到了增強,引入了MLOPart分區和靜態SM分區模式,使得多進程共享GPU資源時能夠得到更準確的資源劃分,這對于AI大模型這類混合負載為主的計算需求尤為重要。
英偉達還對數學庫和工具鏈進行了全面升級。cuBLAS現在能夠提供基于Tensor Core的FP32/FP64仿真GEMM,支持在Blackwell等GPU上加速雙精度矩陣運算,進一步提升了主流AI模型的性能。這一系列更新使得CUDA 13.1幾乎從頭到尾都進行了革新,開發者們紛紛用“新時代的到來”來形容這一版本。
對于AI行業而言,CUDA 13.1的更新意味著開發門檻的顯著降低。過去,編寫CUDA庫和工具需要開發者具備極高的知識儲備和調試能力,而現在,開發者只需決定子系統的參數和功能,即可快速構建完整的程序。這不僅降低了對開發者技能的要求,也加速了AI應用的開發進程。
然而,CUDA Tile的引入也引發了一些擔憂。有開發者擔心,一旦CUDA Tile的性能表現不如預期,深度調試將變得困難,因為開發者將面對的是抽象的Tile運算,而非底層指令。但盡管如此,CUDA開發的簡易化趨勢已不可阻擋。英偉達在13.1版本中保留了傳統SIMT開發工具,為開發者提供了更多的選擇空間。
隨著CUDA 13.1的更新,AI生態大戰的序幕也悄然拉開。過去,AMD ROCm、Intel oneAPI以及中國廠商的自研GPU等,都在嘗試通過轉編譯來適配CUDA生態。然而,CUDA Tile的到來可能使得這一適配過程變得更加復雜。開發者一旦習慣使用Tile IR+cuTile進行編程,將面臨從語法翻譯到編譯器重建的雙重挑戰。
不過,也有專家對此持不同觀點。傳奇芯片架構師Jim Keller認為,CUDA Tile可能會加速CUDA護城河的消失。他指出,CUDA的優勢在于其完善的庫和框架,但過高的上手門檻限制了其普及。而CUDA Tile將使得Tiling成為CUDA生態的主流,而業界大多數主流AI生態早已轉向Tiling。因此,只需解決CUDA Tile代碼與其他Tiling體系之間的互譯問題,開發者就能輕松將CUDA軟件移植到其他AI芯片生態中。
在這場AI生態大戰中,英偉達希望進一步加深與AI行業的捆綁,而其他廠商則需要在追趕CUDA生態的同時構筑自己的護城河。無論結果如何,接下來的幾年里,圍繞AI生態展開的博弈都將變得更加激烈。在這場沒有硝煙的戰爭中,誰能夠脫穎而出,成為最終的贏家,仍需時間來揭曉。








