摘要:
在中國市場,摩爾線程想構(gòu)建一個中國版英偉達(dá)生態(tài)大廈。
鳳凰網(wǎng)科技 出品
作者|Dale
編輯|董雨晴
英偉達(dá)的CUDA生態(tài),一個被類比成“AI時代的Windows”系統(tǒng)的發(fā)布,在2006年剛剛面世時,幾乎無人問津。
“一直到2010年,我們?nèi)パ芯恳恍〤UDA的東西的時候,還是會覺得各種問題,之前大家都是英特爾的X86,很成熟了,一做CUDA,這也不行,那也不行,我們就開玩笑怎么做這么爛的?”一位在早年間就專注于英偉達(dá)CUDA做軟件研究的從業(yè)者告訴鳳凰網(wǎng)科技,這樣的狀態(tài)持續(xù)了僅五六年,到2015年,想再找CUDA的bug就很難了。
CUDA生態(tài)的開發(fā)者數(shù)量在2020年約為180萬,到2025年已超過450萬,每月工具包下載量達(dá)數(shù)十萬次。到今天,英偉達(dá)還在不斷加深這個護(hù)城河。
在中國市場,摩爾線程試圖重講一個類似的故事,構(gòu)建一個中國版英偉達(dá)生態(tài)大廈。
12月20日,在北京中關(guān)村國際創(chuàng)新中心,摩爾線程首屆MUSA開發(fā)者大會(MDC 2025)現(xiàn)場,摩爾線程創(chuàng)始人張建中在上市后首次公開亮相演講,從“花港”新架構(gòu),到“夸娥”萬卡集群,再到單卡推理性能突破,第一次系統(tǒng)性攤開了自己的技術(shù)底牌,步步直比英偉達(dá)。宣布該開發(fā)者大會信息后,摩爾線程連漲三天,合計漲幅超50%。
“生態(tài)體系是GPU行業(yè)的核心護(hù)城河與價值所在。”張建中在主題演講中直言,這不僅是摩爾線程五年來在自主全功能GPU架構(gòu)MUSA上的投入,也是其在2025年末向市場交出的新答卷。
對標(biāo)英偉達(dá),亮出全新架構(gòu)“花港”
如果說芯片是算力的軀體,那么架構(gòu)就是其靈魂。英偉達(dá)的Blackwell、Hopper均以架構(gòu)命名,其重要性不言而喻明。摩爾線程此次發(fā)布的全功能GPU架構(gòu)“花港”,正是其面向下一代計算范式的核心載體。
根據(jù)官方資料,“花港”架構(gòu)在計算密度、能效、精度支持、互聯(lián)能力及圖形技術(shù)等方面實現(xiàn)全面突破:
計算性能顯著提升:基于新一代指令集,算力密度提升50%,能效大幅優(yōu)化;支持從FP4到FP64的全精度端到端計算,新增MTFP6/MTFP4及混合低精度支持。
異步編程與超大規(guī)模互聯(lián):集成新一代異步編程模型;通過自研MTLink高速互聯(lián)技術(shù),支持十萬卡以上規(guī)模智算集群擴(kuò)展。
圖形與AI深度融合:內(nèi)置AI生成式渲染架構(gòu),增強(qiáng)硬件光線追蹤加速引擎,完整支持DirectX 12 Ultimate。
基于“花港”架構(gòu),摩爾線程明確了兩條芯片產(chǎn)品線:
“華山”:專注AI訓(xùn)推一體與超大規(guī)模智能計算,為萬卡級智算集群提供算力支撐,定位為“下一代AI工廠的堅實底座”。官方表示其性能約在Hopper和Blackwell之間。
“廬山”:專攻高性能圖形渲染,圖形性能實現(xiàn)全面跨越:AI計算性能提升64倍,幾何處理性能提升16倍,光線追蹤性能提升50倍,運(yùn)行3A游戲性能提升15倍。
在行業(yè)人士看來,放眼全球,目前僅英偉達(dá)等極少數(shù)企業(yè)具備真正意義上的全功能GPU量產(chǎn)能力。摩爾線程的切入,填補(bǔ)了國內(nèi)該類型產(chǎn)品的空白,形成了差異化壁壘。不過,以上兩款產(chǎn)品還都是“期貨”,量產(chǎn)還需要時間。
在AI算力競爭已進(jìn)入“萬卡集群”時代的今天,摩爾線程正式發(fā)布了夸娥萬卡智算集群(KUAE 2.0),并展示了其支撐萬億參數(shù)模型訓(xùn)練的工程化能力。
該集群核心指標(biāo)包括:訓(xùn)練算力利用率(MFU)在Dense大模型上達(dá)60%,MOE大模型上達(dá)40%,有效訓(xùn)練時間占比超過90%,訓(xùn)練線性擴(kuò)展效率達(dá)95%,“在多項關(guān)鍵精度指標(biāo)上達(dá)到國際主流水平”。
在推理側(cè),摩爾線程聯(lián)合硅基流動,在DeepSeek R1 671B全量模型上實現(xiàn)性能突破:MTT S5000單卡Prefill吞吐突破4000 tokens/s、Decode吞吐突破1000 tokens/s。這一數(shù)據(jù)被官方稱為“樹立國產(chǎn)推理性能新標(biāo)桿”。
中國工程院院士、清華大學(xué)計算機(jī)系教授鄭緯民在大會演講中指出,雖然構(gòu)建國產(chǎn)萬卡乃至十萬卡級別的超大規(guī)模智算系統(tǒng)存在難度,但“這是必須完成的產(chǎn)業(yè)基礎(chǔ)設(shè)施任務(wù)”。
攤牌了,要做中國“CUDA”
GPU之戰(zhàn),終局在生態(tài),英偉達(dá)憑借CUDA構(gòu)筑了近二十年的護(hù)城河。
“MUSA不僅完整定義了從芯片設(shè)計到軟件生態(tài)的統(tǒng)一技術(shù)標(biāo)準(zhǔn),更代表了公司堅持底層創(chuàng)新、踐行長期主義的戰(zhàn)略核心。”張建中表示。
據(jù)官方披露,截至2025年12月,摩爾線程通過“摩爾學(xué)院”匯聚了20萬名開發(fā)者與學(xué)習(xí)者,并通過“國產(chǎn)計算生態(tài)與AI教育共建行動”走進(jìn)全國200多所高校,吸引超10萬名學(xué)子參與。
在軟件棧層面,MUSA 5.0實現(xiàn)全面升級:原生支持MUSA C,深度兼容TileLang、Triton;核心計算庫muDNN實現(xiàn)GEMM/FlashAttention效率超98%,通信效率達(dá)97%。公司還計劃逐步開源計算加速庫、通信庫及系統(tǒng)管理框架等核心組件。
“只有生態(tài)能把所有開發(fā)者聯(lián)合在一起,單一企業(yè)很難獨(dú)自建設(shè)整個生態(tài)。”
實際上,摩爾線程為何如此重視生態(tài)?不單單是對標(biāo)英偉達(dá)那么簡單。
一位AI行業(yè)從業(yè)者告訴鳳凰網(wǎng)科技,“通過軟硬件的協(xié)同設(shè)計,做比較好的軟件實現(xiàn),還是能夠把國產(chǎn)算力充分發(fā)揮起來的”。
不少從業(yè)者都認(rèn)為,以當(dāng)前的模型預(yù)訓(xùn)練需求來說,依舊以英偉達(dá)的芯片為最優(yōu)解,但其同樣溢價不菲,單個芯片市場報價通常在20萬至25萬元之間。在持續(xù)暴漲的AI需求面前,這是一筆需要計算的經(jīng)濟(jì)賬。
因此在獲準(zhǔn)向中國出售H200之際,黃仁勛也表示,“美國放松對AI芯片銷售的限制,中國是否會接受英偉達(dá)的H200芯片,我對此并不確定。”
“現(xiàn)階段來看,如果大家愿意在軟件上做相關(guān)工作,最終國產(chǎn)算力方案未必不如國外”,前述AI行業(yè)從業(yè)者表示,不過其也認(rèn)識到國產(chǎn)生態(tài)建設(shè)之難。
擺在摩爾線程面前的,仍是漫漫長路:生態(tài)建設(shè)非一日之功,大規(guī)模商用部署仍需持續(xù)驗證,國際競爭環(huán)境日益復(fù)雜。亮劍之后,更關(guān)鍵的是如何攻城。










