滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

從物理到AI底層：OpenAI幕后工程師Scott Gray如何用CUDA內核改寫訓練規則

時間：2025-10-02 06:37:54 來源：快訊編輯：快訊 IP：北京 發表評論無障礙通道

在人工智能領域，聚光燈往往聚焦于那些站在臺前的明星科學家，但真正推動技術進步的，還有無數在幕后默默耕耘的工程師。近期，OpenAI 的一位資深工程師因其在底層性能優化方面的卓越貢獻，成為行業關注的焦點。

事件起因于社交媒體上的一則熱門帖子，其中提到 OpenAI 僅憑一位工程師編寫的關鍵 CUDA Kernel，便支撐起每日數萬億次的龐大計算量。評論區紛紛猜測，這位“幕后大神”正是 OpenAI 的資深工程師 Scott Gray。這一猜測并非空穴來風，OpenAI 的官方介紹明確指出，他的工作重心是“優化深度網絡在 GPU 上的性能”。

編寫高性能的模型訓練 CUDA Kernel 是一項極具挑戰性的工作，要求開發者同時精通并行計算理論、GPU 硬件架構與深度學習算法。大多數開發者停留在應用層，使用現成工具；從事推理優化的人稍多，但能深入底層，為復雜的訓練過程（尤其是反向傳播）手寫出超越 cuDNN 等現有庫的 CUDA Kernel 的開發者，可謂鳳毛麟角。而 Scott Gray 的職業軌跡，恰好是為這一角色量身打造的。

Scott Gray 的職業生涯始于 UIUC 物理與計算機科學專業。2016 年，他加入 OpenAI，此前在 Nervana Systems（一家后被英特爾收購的公司）從事 GPU 匯編級內核優化。Nervana 的前 CEO 在評論區直言，當年他們在論壇發現 Scott 后便立即聘用，并盛贊其為“全球最強 GPU 程序員”。

在 Nervana 時期，Scott Gray 的聲名鵲起源于他對硬件底層極限的探索。當時，深度學習正處于爆發前夜，但軟件框架與底層硬件之間存在巨大的效率鴻溝。絕大多數開發者依賴 NVIDIA 的 CUDA C/C++ 和官方庫（如 cuBLAS、cuDNN）進行 GPU 編程。這種標準流程雖然便捷，但其多層軟件抽象屏蔽了硬件細節，也成為了性能的“天花板”。

Gray 的哲學是，要實現真正的性能突破，必須繞過這些抽象層。為此，他開發了 maxas——一個針對 NVIDIA Maxwell 架構的匯編器。這讓他得以手動編寫出極致性能的計算內核，直接控制硬件資源，包括寄存器分配、內存延遲管理和指令流水線控制。為了證明其價值，Gray 使用 maxas 手寫了一個 SGEMM（單精度通用矩陣乘法）內核，結果在 GM204 GPU 上達到了硬件理論峰值的 98%，性能比 NVIDIA 官方閉源的 cuBLAS 庫還要快 4.8%。

在 maxas 成功的基礎上，Gray 將目光投向了深度學習中的另一個核心計算——卷積。他開發了 maxDNN，旨在證明底層優化方法論是一種可以系統性應用的通用策略。maxDNN 借鑒了當時最高效的卷積算法思路，但在底層完全采用 maxas 中被驗證過的匯編級優化技術。最終，其核心計算循環中，超過 98% 的指令都是純粹的浮點運算指令，計算效率極高。在 AlexNet 模型的所有卷積層上，maxDNN 穩定地達到了 93-95% 的計算效率，全面超越了當時 NVIDIA 的 cuDNN 庫。

加入 OpenAI 后，Gray 的工作重心發生了戰略性轉變。隨著 Scaling Laws 的提出，模型規模的增長成為提升性能的關鍵。然而，稠密模型的無限擴張在計算和成本上面臨瓶頸。Gray 的工作轉向了為更高效的稀疏模型架構開發底層工具，從一個“優化者”轉變為一個“使能者”。

Scott Gray 的名字出現在幾乎所有 OpenAI 的里程碑式論文中，包括 GPT-3、GPT-4、Codex 和 DALL-E。他作為核心技術人員，編寫了大量高性能 GPU 內核，支撐了這些模型萬億次級別的訓練和推理計算。為了解決稠密模型的規模化難題，Gray 與同事共同開發了一套創新的塊稀疏（block-sparse）GPU 內核。

不同于移除單個權重的非結構化稀疏，塊稀疏將權重矩陣劃分為固定大小的塊，并將整個塊置零。Gray 為此開發了專門的 GPU 內核，在計算時能夠完全“跳過”這些零值塊，從而大幅提升效率。這些內核的運行速度可以比處理稠密矩陣的 cuBLAS 或處理通用稀疏矩陣的 cuSPARSE 快上幾個數量級。利用這些內核，OpenAI 在文本和圖像生成等多個任務上取得了當時的領先成果，并將這些高性能的塊稀疏內核進行了開源，旨在推動整個社區在模型和算法設計上的進一步創新。

更多>同類資訊

探訪華為練秋湖研發中心，共赴世界城市日共話智慧城市未來

2025年，世界城市日將繼續踐行“城市，讓生活更美好”的理念，推出一系列高水平、國際化、青年友好的社會活動，通過內容豐富多樣的論壇、展覽、公益等形式，提升公眾對智慧城市與可持續未來的關注與參與，推動社會各界探…

10-02

港科大（廣州）仿生機器人賽：全棧實戰校企攜手破局產業痛點

南方財經記者觀察到，港科大體系近百名本碩博學生及畢業生帶來了十多個創新成果，圍繞仿生機器人開展的全棧技術實戰，正在以“小切口”破解機器人產業痛點。今年5月，港科大（廣州）與天太機器人成立了聯合實驗室，為參賽…

10-02

探訪華為練秋湖研發中心，共話智慧城市創新發展與民生溫度

2025年，世界城市日將繼續踐行“城市，讓生活更美好”的理念，推出一系列高水平、國際化、青年友好的社會活動，通過內容豐富多樣的論壇、展覽、公益等形式，提升公眾對智慧城市與可持續未來的關注與參與，推動社會各界探…

10-02

?《生成式AI安全應急指南：從事件分類到響應全流程詳解》?

今天分享的是：報告共計：35頁《》（V1.0-202509）由全國網絡安全標準化技術委員會秘書處2025年9月發布，國家計算機網絡應急技術處理協調中心、中國電子技術標準化研究院等多單位參與起草，旨在指導生…

10-02

OpenAI幕后英雄Scott Gray：從底層優化到賦能AI新架構的硬核之路

在 OpenAI 的官方介紹中也明確提到，他的工作重心是「優化深度網絡在 GPU 上的性能」。與在 Nervana 時一樣，OpenAI 也將這些高性能的塊稀疏內核進行了開源，旨在推動整個社區在模型和算法…

10-02

OpenAI深夜發布Sora2：推出配套App，開啟視頻生成與社交新體驗

2024 年 2 月發布的初代 Sora 模型，在很多方面都堪稱視頻領域的 GPT-1 時刻 ——這是視頻生成首次讓人覺得開始行得通，像物體恒存性這樣的簡單行為，也隨著預訓練計算量的提升而出現。通過觀看 …

10-02

AI邂逅千年徽韻！安徽名人館“星火伴游”上線，開啟智慧文旅新體驗

這是繼合肥科技館之后，“星火伴游”在安徽落地的又一重要文化場館，也是其從科普教育場景邁向深度文旅場景，人工智能大模型驅動智慧文旅建設的重要實踐。本次“星火伴游”在規定時間內完成系統部署與場館知識庫配置并成功…

10-02

OpenAI與DeepMind頂尖人才攜手，以AI改造科研，3億美元助力攻克超導難題

PeriodicLabs志在重塑科研的底層流程：他們要讓AI走進實驗室、提出假設、執行實驗、生成數據、優化設計——一步步逼近「自動化科學發現」的理想。他們都意識到：LLM已經在代碼、數學和知識問答中展現…

10-01

日本仿生美女機器人引關注：恒久青春與智能協作，科技照亮未來生活新圖景

即使在生物科技領域，科學家對衰老機理的研究日漸深入，也讓人們對活到一百歲有了更具體的想象。被譽為機器人之父的石黑浩曾公開表示，這類外觀接近女性的仿生機器人可以根據需要設定年齡段，除了美觀，性格也相當溫和，甚至…

10-01

蘋果回應馬斯克公司起訴：與OpenAI合作合規，反壟斷指控缺乏依據

10-01

科技賦能空天夢逗太空SPACE雄安科訓基地助力青少年科創實踐

10-01

AI 旅行搭子初體驗：日本行中它助力幾何，離“完全體”還有多遠？

10-01

大廠競逐智能體賽道：從工具探索到生態競爭，數字員工撬動商業新局

10-01

OpenAI與DeepMind頂尖人才攜手，AI賦能科研，3億美元助力攻克超導難題

10-01

從底層優化到架構創新：OpenAI幕后工程師Scott Gray的硬核技術之路

10-01

點擊查看更多 +

全站最新

?猛士M817 Max+版重磅登場！1365km超長續航，解鎖全域智野新體驗?

AICC2025分論壇聚焦智能駕駛：六位嘉賓共探艙駕融合、端到端與世界模型新趨勢

中西部城市經濟新局：西安追趕合肥，洛陽轉型顯效，滁州借力長三角增速領跑

科大訊飛X3 LAMY聯名款：高效辦公新伙伴，記錄管理輕松搞定！

科大訊飛降噪耳機Pro2：商務學習音樂三合一，高效品質生活新選擇

賈雅楠引領汾都香電商：借力數字浪潮，助呂梁土特產飛向全國

熱門內容

本欄最新

占地1300平方米！智元機器人全國首家具身智能體驗中心落地無錫

第22屆東博會AI元素亮眼：數字智能體引路機器人炫技展風采

AI云競爭下半場：華為以超節點、企業Agent等破局，誰能領跑產業？

2025網安周：每日互動劉宇談AI時代，知識安全成關鍵，共筑數字新未來

中國大模型DeepSeek首登Nature封面，R1訓練成本僅約208萬引關注

華為全聯接大會2025啟幕，發布全球最強算力超節點與集群

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级

從物理到AI底層：OpenAI幕后工程師Scott Gray如何用CUDA內核改寫訓練規則