英偉達美東時間2日周二披露了與法國人工智能(AI)初創公司Mistral AI合作取得的重大突破。通過采用英偉達的最新芯片技術,Mistral AI開源模型家族的新成員在性能、效率和部署靈活性上實現跨越式提升。
這一合作成果的核心是,Mistral Large 3這一大型模型在英偉達GB200 NVL72系統上實現了相比前代H200芯片10倍的性能提升。這種性能飛躍轉化為更好的用戶體驗、更低的單次響應成本以及更高的能源效率。該模型在每兆瓦(MW)能耗下可實現每秒超過500萬個token的處理速度。
除大型模型外,名為Ministral 3的小型模型系列也針對英偉達邊緣平臺進行了優化,可在RTX PC、筆記本電腦和Jetson設備上運行。這使得企業能夠在云端到邊緣的任何場景部署人工智能應用,無需依賴持續的網絡連接。
Mistral AI周二發布的新模型家族包括一個大型前沿模型和九個小模型,均可通過Hugging Face等開源平臺和主流云服務商獲取。業內人士認為,這一系列發布標志著開源AI進入"分布式智能"新階段,彌合了研究突破與實際應用之間的差距。
GB200系統助力大模型性能突破
Mistral Large 3是一個混合專家模型(MoE),擁有675億總參數和410億活躍參數,以及25.6萬token的上下文窗口。該架構的特點是僅激活對每個token最具影響力的模型部分,而非啟動所有神經元,從而在保持精度的同時實現高效擴展。
英偉達稱,通過利用一系列專為大型先進MoE量身定制的優化技術,Mistral Large 3在英偉達GB200 NVL72上實現了同類最佳性能。
英偉達通過三項關鍵技術優化實現了性能突破。首先是Wide Expert Parallelism技術,通過優化的MoE內核、專家分配和負載均衡充分利用NVlink的連貫內存域。其次是NVFP4低精度推理技術,在保持精度的同時降低計算和內存成本。第三是Dynamo分布式推理框架,通過分離預填充和解碼階段提升長文本處理性能。
該模型已兼容TensorRT-LLM、SGLang和vLLM等主流推理框架。開發者可以通過這些開源工具在不同規模的英偉達GPU上靈活部署模型,選擇適合自身需求的精度格式和硬件配置。
小模型瞄準邊緣設備部署
Ministral 3系列包含九個密集型高性能模型,涵蓋30億、80億和140億三種參數規模,每種規模又提供基礎版、指令版和推理版三個變體。所有變體均支持視覺功能,處理12.8萬至25.6萬token的上下文窗口,并支持多語言。
這些小型模型在英偉達RTX 5090 GPU上可實現每秒最高385個token的推理速度。在Jetson Thor設備上,vLLM容器在單并發下可達每秒52個token,在8個并發下可擴展至每秒273個token。
英偉達與Ollama和llama.cpp合作優化了這些模型的邊緣性能。開發者可以在GeForce RTX AI PC、DGX Spark和Jetson設備等英偉達邊緣平臺上運行這些模型,實現更快的迭代速度、更低的延遲和更強的數據隱私保護。
由于單個GPU即可運行,Ministral 3可部署在機器人、自動駕駛無人機、汽車、手機和筆記本電腦等設備上。這種部署靈活性使得人工智能應用能夠在網絡連接受限或無網絡環境下運行。
Mistral新模型家族商業化提速
Mistral AI周二發布的新模型系列是該公司追趕OpenAI、谷歌和DeepSeek等領先AI實驗室的最新舉措。這家成立于2023年的公司在去年9月完成17億歐元融資,其中荷蘭芯片設備制造商ASML貢獻13億歐元,英偉達也參與其中,估值達到117億歐元。
Mistral AI的聯合創始人兼首席科學家Guillaume Lample表示,盡管大型閉源模型在初始基準測試中表現更好,但經過針對性微調后,小型模型在企業特定用例上往往能匹敵甚至超越大型模型。他強調,絕大多數企業用例可以通過微調后的小型模型解決,且成本更低、速度更快。
Mistral AI已開始加速商業化進程。本周一,該公司宣布與匯豐銀行達成協議,為這家跨國銀行提供從金融分析到翻譯等任務的模型訪問權限。該公司還與多家企業簽訂了價值數億美元的合同,并在物理人工智能領域展開布局,與新加坡內政科技局、德國國防科技初創公司Helsing以及汽車制造商Stellantis開展機器人、無人機和車載助手項目合作。
Mistral Large 3和Ministral-14B-Instruct現已通過英偉達API目錄和預覽API向開發者開放。企業開發者很快還可使用英偉達NIM微服務在任何GPU加速基礎設施上輕松部署這些模型。所有Mistral 3家族模型均可從Hugging Face下載。







