Mistral 發(fā)布了 Mistral 3 系列
去年的時候,他們是開源屆的當紅炸子雞
然后...已經(jīng)一年多沒發(fā)模型了
Base Model 對比,對標 DeepSeek 和 Kimi
他們的官方對比很有意思
對標的不再是 GPT/Claude/Gemini
而只有中國模型, DeepSeek-3.1 和 Kimi-K2
補充一個冷知識...Mistral 是一家法國公司,被認為是歐洲的希望
估值....140億 美金
一定是哪里踏馬出了什么問題
先說旗艦
Mistral Large 3,675B 總參數(shù),41B 激活參數(shù),MoE 架構,全系列 Apache 2.0 開源,reasoning 版本即將推出
LMArena 排名開源非推理模型第二,總榜第六
LMArena 排名
訓練方面,使用了3000 張 NVIDIA H200
評測信息
對于Mistral Large 3,官方給了和 DeepSeek V3.1、Kimi K2 的對比數(shù)據(jù),如下
Base Model 對比,對標 DeepSeek 和 Kimi
第三方做的模型人類評估(雖然也不知道是啥)
Mistral 對 DeepSeek 勝率 53%,對 Kimi 勝率 55%
多語言任務上差距更大,對 DeepSeek 勝率 57%,對 Kimi 勝率 60%
Instruct 模型人類評估,第三方做的
再說小模型
Ministral 3 系列還有幾個小尺寸模型,3B、8B、14B 三個尺寸,都是 dense 模型
每個尺寸都有 pretraining、instruct、reasoning 三個版本
全系列支持圖像理解,支持 40+ 語言
官方說 Ministral instruct 生成的 token 數(shù)量比同級別模型少一個數(shù)量級
14B reasoning 版本在 AIME '25 上跑到 85%
GPQA Diamond Accuracy 對比14B 系列跑分
Ministral 14B benchmark: pretraining
Ministral 14B benchmark: instruct
Ministral 14B benchmark: reasoning8B 系列跑分
Ministral 8B benchmark: pretraining
Ministral 8B benchmark: instruct
Ministral 8B benchmark: reasoning3B 系列跑分
Ministral 3B benchmark: pretraining
Ministral 3B benchmark: instruct
Ministral 3B benchmark: reasoning
部署
和 NVIDIA、vLLM、Red Hat 合作做了優(yōu)化
Large 3 可以在 Blackwell NVL72 系統(tǒng)上跑,也可以在單個 8×A100 或 8×H100 節(jié)點上跑
Ministral 系列可以跑在 DGX Spark、RTX PC、Jetson 設備上
API 服務上,已上線各主力算力平臺,并提供定制訓練服務
最后
我提個有趣的點,這個是 Mistral2 發(fā)布時候,評測對比上,一水的海外模型
Mistral 2 發(fā)布的對比
而 Mistral3 則都選的是中國模型,或許也可以理解為...中國的開源模型,或已是全球的標桿...
(當然,我們也要承認和頭部閉源的差距)











