谷歌正在發(fā)起一項(xiàng)代號(hào)為「TorchTPU」的新行動(dòng),試圖以此打破英偉達(dá)在 AI 算力市場(chǎng)的長期壟斷。
據(jù)知情人士透露,這項(xiàng)計(jì)劃的核心在于讓谷歌自研的 AI 芯片(TPU)能夠更順滑地運(yùn)行 PyTorch,這是目前全球最主流的 AI 軟件框架。
這是谷歌激進(jìn)戰(zhàn)略拼圖中的關(guān)鍵一塊,他們希望將 TPU 打造為英偉達(dá) GPU 的有力替代者。
隨著谷歌急需向投資者證明其巨額 AI 投入的回報(bào)能力,TPU 的銷售已然成為谷歌云營收增長的重要引擎。
但光有硬件是不夠的。
知情人士指出,「TorchTPU」旨在消除那道長期阻礙 TPU 普及的無形圍墻,也就是讓那些早已習(xí)慣在 PyTorch 環(huán)境下搭建技術(shù)架構(gòu)的客戶,能夠無痛遷移到谷歌的硬件上。
甚至有消息稱,為了加速這一進(jìn)程,谷歌正考慮將部分軟件開源。
相較于過往對(duì) PyTorch 的零星支持,這一次谷歌投入了前所未有的組織關(guān)注度和戰(zhàn)略資源。
這一轉(zhuǎn)變的背后,是越來越多渴望采用 TPU 的企業(yè)發(fā)出的呼聲。對(duì)他們來說,芯片是個(gè)好東西,但軟件棧卻成了瓶頸。
在硅谷,PyTorch 是 AI 模型開發(fā)者的通用語言,而它的最大支持者正是 meta。
在這個(gè)行業(yè)里,極少有開發(fā)者會(huì)去為英偉達(dá)、AMD 或谷歌的芯片逐行編寫底層代碼,他們依賴的是像 PyTorch 這樣的工具庫來自動(dòng)化處理開發(fā)任務(wù)。
自 2016 年發(fā)布以來,PyTorch 的成長史幾乎就是一部與英偉達(dá)CUDA生態(tài)的綁定史。
華爾街分析師普遍認(rèn)為,CUDA 才是英偉達(dá)抵御競(jìng)爭(zhēng)對(duì)手最堅(jiān)固的盾牌。
多年來,英偉達(dá)的工程師們不僅造芯片,更致力于確保 PyTorch 開發(fā)的模型在其硬件上跑得又快又好。
相比之下,谷歌此前走了一條截然不同的路。
他們擁有龐大的內(nèi)部軟件軍團(tuán),使用一套名為Jax的代碼框架,并通過 XLA 工具來優(yōu)化 TPU 的運(yùn)行效率。
谷歌自身的 AI 軟件棧和性能優(yōu)化大多圍繞 Jax 構(gòu)建,這種「圈地自萌」的做法,拉大了谷歌芯片與外部客戶實(shí)際使用習(xí)慣之間的鴻溝。
面對(duì)路透社的詢問,谷歌云發(fā)言人雖未對(duì)該項(xiàng)目細(xì)節(jié)置評(píng),但確認(rèn)了這一戰(zhàn)略方向。
他表示,無論是 TPU 還是 GPU 基礎(chǔ)設(shè)施,需求都在加速爆發(fā),谷歌的重心是提供足夠的靈活性和規(guī)模,無論開發(fā)者選擇在何種硬件上構(gòu)建應(yīng)用。
從自用到外售TPU 的角色演變
曾幾何時(shí),谷歌將絕大多數(shù) TPU 產(chǎn)能視為「私藏珍品」,僅供內(nèi)部使用。
這一局面直到 2022 年才發(fā)生改變,谷歌云部門成功爭(zhēng)取到了 TPU 的銷售主導(dǎo)權(quán)。
此后,谷歌云大幅增加了對(duì)外分配的 TPU 額度,試圖在客戶對(duì) AI 興趣激增的當(dāng)下,通過擴(kuò)大產(chǎn)能和銷售來搶占市場(chǎng)。
然而,供需之間存在錯(cuò)位。
全球大多數(shù) AI 開發(fā)者使用的是 PyTorch,而谷歌芯片最擅長的卻是 Jax。
這意味著,想要使用谷歌芯片并獲得比肩英偉達(dá)的性能,開發(fā)者必須進(jìn)行大量額外的工程適配。
在分秒必爭(zhēng)的 AI 競(jìng)賽中,這種時(shí)間和資金的消耗是企業(yè)難以承受的。
如果「TorchTPU」計(jì)劃成功,它將顯著降低企業(yè)尋找英偉達(dá) GPU 替代方案時(shí)的轉(zhuǎn)換成本。
英偉達(dá)之所以難以撼動(dòng),不僅在于硬件性能,更在于 CUDA 生態(tài)已經(jīng)深深嵌入 PyTorch,成為訓(xùn)練和運(yùn)行大模型的默認(rèn)選項(xiàng)。
知情人士表示,企業(yè)客戶曾反復(fù)向谷歌反饋,TPU 雖好,但接入門檻太高,因?yàn)闅v史上它強(qiáng)迫開發(fā)者放棄通用的 PyTorch,轉(zhuǎn)而學(xué)習(xí)谷歌內(nèi)部偏好的 Jax。
盟友 meta敵人的敵人就是朋友
為了加速開發(fā)進(jìn)程,谷歌找來了一位關(guān)鍵盟友,即 PyTorch 的創(chuàng)造者和守護(hù)者 meta。
據(jù)知情人士透露,這兩大科技巨頭正在商討協(xié)議,讓 meta 獲得更多 TPU 的使用權(quán)。此前《The Information》也曾報(bào)道過這一動(dòng)向。
在早期合作中,谷歌主要以托管服務(wù)的形式向 meta 提供支持。
meta 使用谷歌設(shè)計(jì)的芯片運(yùn)行谷歌的軟件和模型,并由谷歌提供運(yùn)營維護(hù)。
對(duì) meta 而言,推動(dòng)軟件適配 TPU 具有極高的戰(zhàn)略價(jià)值,它不僅能降低推理成本,更能通過硬件基礎(chǔ)設(shè)施的多元化來減少對(duì)英偉達(dá)的依賴,從而在談判桌上獲得更多籌碼。
meta 方面對(duì)此拒絕置評(píng)。
今年以來,谷歌已開始將 TPU 直接出售給客戶的數(shù)據(jù)中心,而不再局限于自家的云服務(wù)。
組織架構(gòu)也在隨之調(diào)整,谷歌老將 Amin Vahdat 本月被任命為 AI 基礎(chǔ)設(shè)施負(fù)責(zé)人,直接向 CEO 桑達(dá)爾·皮查伊(Sundar Pichai)匯報(bào)。
這套基礎(chǔ)設(shè)施對(duì)谷歌至關(guān)重要,它不僅要支撐包括 Gemini 聊天機(jī)器人和 AI 搜索在內(nèi)的自家產(chǎn)品,也要服務(wù)于像 Anthropic 這樣依賴谷歌云 TPU 算力的外部獨(dú)角獸。











