在人工智能領域,聚光燈往往聚焦于那些站在臺前的明星科學家,但真正推動技術進步的,還有無數在幕后默默耕耘的工程師。近期,OpenAI 的一位資深工程師因其在底層性能優化方面的卓越貢獻,成為行業關注的焦點。
事件起因于社交媒體上的一則熱門帖子,其中提到 OpenAI 僅憑一位工程師編寫的關鍵 CUDA Kernel,便支撐起每日數萬億次的龐大計算量。評論區紛紛猜測,這位“幕后大神”正是 OpenAI 的資深工程師 Scott Gray。這一猜測并非空穴來風,OpenAI 的官方介紹明確指出,他的工作重心是“優化深度網絡在 GPU 上的性能”。
編寫高性能的模型訓練 CUDA Kernel 是一項極具挑戰性的工作,要求開發者同時精通并行計算理論、GPU 硬件架構與深度學習算法。大多數開發者停留在應用層,使用現成工具;從事推理優化的人稍多,但能深入底層,為復雜的訓練過程(尤其是反向傳播)手寫出超越 cuDNN 等現有庫的 CUDA Kernel 的開發者,可謂鳳毛麟角。而 Scott Gray 的職業軌跡,恰好是為這一角色量身打造的。
Scott Gray 的職業生涯始于 UIUC 物理與計算機科學專業。2016 年,他加入 OpenAI,此前在 Nervana Systems(一家后被英特爾收購的公司)從事 GPU 匯編級內核優化。Nervana 的前 CEO 在評論區直言,當年他們在論壇發現 Scott 后便立即聘用,并盛贊其為“全球最強 GPU 程序員”。
在 Nervana 時期,Scott Gray 的聲名鵲起源于他對硬件底層極限的探索。當時,深度學習正處于爆發前夜,但軟件框架與底層硬件之間存在巨大的效率鴻溝。絕大多數開發者依賴 NVIDIA 的 CUDA C/C++ 和官方庫(如 cuBLAS、cuDNN)進行 GPU 編程。這種標準流程雖然便捷,但其多層軟件抽象屏蔽了硬件細節,也成為了性能的“天花板”。
Gray 的哲學是,要實現真正的性能突破,必須繞過這些抽象層。為此,他開發了 maxas——一個針對 NVIDIA Maxwell 架構的匯編器。這讓他得以手動編寫出極致性能的計算內核,直接控制硬件資源,包括寄存器分配、內存延遲管理和指令流水線控制。為了證明其價值,Gray 使用 maxas 手寫了一個 SGEMM(單精度通用矩陣乘法)內核,結果在 GM204 GPU 上達到了硬件理論峰值的 98%,性能比 NVIDIA 官方閉源的 cuBLAS 庫還要快 4.8%。
在 maxas 成功的基礎上,Gray 將目光投向了深度學習中的另一個核心計算——卷積。他開發了 maxDNN,旨在證明底層優化方法論是一種可以系統性應用的通用策略。maxDNN 借鑒了當時最高效的卷積算法思路,但在底層完全采用 maxas 中被驗證過的匯編級優化技術。最終,其核心計算循環中,超過 98% 的指令都是純粹的浮點運算指令,計算效率極高。在 AlexNet 模型的所有卷積層上,maxDNN 穩定地達到了 93-95% 的計算效率,全面超越了當時 NVIDIA 的 cuDNN 庫。
加入 OpenAI 后,Gray 的工作重心發生了戰略性轉變。隨著 Scaling Laws 的提出,模型規模的增長成為提升性能的關鍵。然而,稠密模型的無限擴張在計算和成本上面臨瓶頸。Gray 的工作轉向了為更高效的稀疏模型架構開發底層工具,從一個“優化者”轉變為一個“使能者”。
Scott Gray 的名字出現在幾乎所有 OpenAI 的里程碑式論文中,包括 GPT-3、GPT-4、Codex 和 DALL-E。他作為核心技術人員,編寫了大量高性能 GPU 內核,支撐了這些模型萬億次級別的訓練和推理計算。為了解決稠密模型的規模化難題,Gray 與同事共同開發了一套創新的塊稀疏(block-sparse)GPU 內核。
不同于移除單個權重的非結構化稀疏,塊稀疏將權重矩陣劃分為固定大小的塊,并將整個塊置零。Gray 為此開發了專門的 GPU 內核,在計算時能夠完全“跳過”這些零值塊,從而大幅提升效率。這些內核的運行速度可以比處理稠密矩陣的 cuBLAS 或處理通用稀疏矩陣的 cuSPARSE 快上幾個數量級。利用這些內核,OpenAI 在文本和圖像生成等多個任務上取得了當時的領先成果,并將這些高性能的塊稀疏內核進行了開源,旨在推動整個社區在模型和算法設計上的進一步創新。











