在最新一期科技播客《Unsupervised Learning》中,F(xiàn)lash Attention算法發(fā)明者、普林斯頓大學(xué)教授Tri Dao就AI硬件生態(tài)變革、模型架構(gòu)演進(jìn)等核心議題展開(kāi)深度探討。這位同時(shí)擔(dān)任TogetherAI首席科學(xué)家的研究者指出,未來(lái)三年內(nèi)英偉達(dá)在AI加速卡市場(chǎng)的絕對(duì)主導(dǎo)地位將面臨根本性挑戰(zhàn),專用芯片的多元化發(fā)展將成為主流趨勢(shì)。
針對(duì)硬件市場(chǎng)的競(jìng)爭(zhēng)格局,Tri Dao觀察到隨著Transformer、MoE(專家混合模型)等架構(gòu)的標(biāo)準(zhǔn)化,芯片設(shè)計(jì)正從通用型向?qū)S没D(zhuǎn)型。AMD憑借大容量?jī)?nèi)存優(yōu)勢(shì)已在推理市場(chǎng)占據(jù)先機(jī),而訓(xùn)練端受制于網(wǎng)絡(luò)通信瓶頸仍由英偉達(dá)主導(dǎo)。但他強(qiáng)調(diào),當(dāng)工作負(fù)載逐漸聚焦特定架構(gòu)時(shí),新入局者通過(guò)精準(zhǔn)定位低延遲智能體系統(tǒng)、高吞吐批處理等細(xì)分場(chǎng)景,完全可能打破現(xiàn)有格局。
在模型架構(gòu)創(chuàng)新層面,MoE架構(gòu)的稀疏計(jì)算特性正在重塑行業(yè)規(guī)則。Tri Dao以DeepSeek提出的multi-head latent attention機(jī)制為例,說(shuō)明通過(guò)潛在投影壓縮KV緩存可顯著降低內(nèi)存占用。這種技術(shù)演進(jìn)使得在128個(gè)專家單元中僅激活4個(gè)的極端稀疏模型成為可能,相比早期Mistral的8選2模式,計(jì)算效率提升達(dá)8倍。與此同時(shí),狀態(tài)空間模型(如Mamba)通過(guò)歷史狀態(tài)壓縮技術(shù),在大批量推理場(chǎng)景中展現(xiàn)出獨(dú)特優(yōu)勢(shì)。
推理成本三年百倍下降的奇跡背后,是多重技術(shù)突破的協(xié)同效應(yīng)。模型量化技術(shù)將參數(shù)精度從16位壓縮至4位,在幾乎不損失精度的情況下將模型體積縮減75%。Flash Attention通過(guò)重構(gòu)內(nèi)存訪問(wèn)模式,使注意力計(jì)算效率提升3-5倍。硬件與算法的協(xié)同設(shè)計(jì)更催生出新型優(yōu)化范式,例如針對(duì)MoE架構(gòu)的分布式專家部署方案,有效解決了跨芯片通信瓶頸。
對(duì)于未來(lái)技術(shù)演進(jìn)方向,Tri Dao預(yù)測(cè)將出現(xiàn)三大核心工作負(fù)載:實(shí)時(shí)交互型(如代碼輔助)、極低延遲型(如智能體決策)、高吞吐批處理型(如合成數(shù)據(jù)生成)。這種分化促使硬件供應(yīng)商采取差異化策略,某些廠商專注將延遲壓縮至2毫秒以內(nèi),另一些則通過(guò)集群優(yōu)化實(shí)現(xiàn)每秒萬(wàn)級(jí)請(qǐng)求處理。TogetherAI采用的"艦隊(duì)級(jí)"動(dòng)態(tài)資源分配系統(tǒng),已能根據(jù)實(shí)時(shí)負(fù)載自動(dòng)切換工作模式,使批量API成本降低50%。
在自動(dòng)化編程領(lǐng)域,AI與人類的協(xié)作模式正在發(fā)生質(zhì)變。Tri Dao團(tuán)隊(duì)通過(guò)Claude Code實(shí)現(xiàn)的Triton內(nèi)核生成,使開(kāi)發(fā)效率提升1.5倍。更值得關(guān)注的是o3模型展現(xiàn)出的架構(gòu)設(shè)計(jì)能力,它能準(zhǔn)確指出函數(shù)優(yōu)化的關(guān)鍵路徑。這種代理式AI的發(fā)展,預(yù)示著未來(lái)開(kāi)發(fā)者將更多聚焦于高層設(shè)計(jì),而將具體實(shí)現(xiàn)交給智能協(xié)作系統(tǒng)。
關(guān)于通用人工智能(AGI)的實(shí)現(xiàn)路徑,Tri Dao認(rèn)為現(xiàn)有Transformer架構(gòu)已具備核心要素,但架構(gòu)創(chuàng)新可能將成本降低10倍。他特別強(qiáng)調(diào)"推理優(yōu)先"的設(shè)計(jì)理念,指出未來(lái)架構(gòu)需在每分錢推理效率(inference per flop)和每浮點(diǎn)運(yùn)算產(chǎn)出(FLOPs per dollar)兩個(gè)維度持續(xù)突破。在機(jī)器人領(lǐng)域,多模態(tài)世界模型與實(shí)時(shí)控制系統(tǒng)的融合,正在解決多時(shí)間尺度決策的行業(yè)難題。
對(duì)于開(kāi)源與閉源模型的競(jìng)爭(zhēng),Tri Dao預(yù)測(cè)兩者質(zhì)量差距將在年內(nèi)顯著縮小。隨著強(qiáng)化學(xué)習(xí)工具鏈的成熟,開(kāi)源社區(qū)在模型微調(diào)方面的效率優(yōu)勢(shì)將愈發(fā)明顯。而在數(shù)據(jù)層面,合成數(shù)據(jù)生成技術(shù)正在創(chuàng)造新的價(jià)值增長(zhǎng)點(diǎn),某些場(chǎng)景下模型生成的數(shù)據(jù)質(zhì)量已接近人工標(biāo)注水平。
在學(xué)術(shù)與產(chǎn)業(yè)的平衡方面,Tri Dao的雙軌制實(shí)踐提供了獨(dú)特范本。他在普林斯頓的研究團(tuán)隊(duì)專注于2-3年的前瞻性技術(shù),如機(jī)器人多分辨率控制系統(tǒng);而TogetherAI的工程團(tuán)隊(duì)則聚焦于月度級(jí)別的產(chǎn)品迭代。這種探索與開(kāi)發(fā)的結(jié)合模式,既保證了基礎(chǔ)研究的自由度,又維持了商業(yè)落地的敏捷性。











