小米近日在人工智能領域投下一枚重磅炸彈,正式推出并開源新一代大模型MiMo-V2-Flash。這款模型憑借3090億總參數、150億活躍參數的規模,以及專家混合架構(MoE)設計,在性能上與DeepSeek-V3.2、Kimi-K2等頭部開源模型形成有力競爭。更引人注目的是,其推理速度達到每秒150個token,輸入成本低至每百萬token僅0.1美元,輸出成本0.3美元,在性價比維度上樹立了新標桿。
在權威基準測試中,MiMo-V2-Flash展現驚人實力:AIME 2025數學競賽和GPQA-Diamond科學知識測試均躋身開源模型前兩名;編程能力尤為突出,SWE-bench Verified測試得分73.4%,超越所有開源競品,直逼GPT-5-High水平。該測試要求模型修復真實軟件漏洞,73.4%的成功率意味著其已具備解決多數實際編程問題的能力。在多語言編程測試SWE-Bench Multilingual中,模型同樣取得71.7%的解決率。
智能體任務表現同樣亮眼:在τ2-Bench分類測試中,通信類得分95.3、零售類79.5、航空類66.0;BrowseComp搜索代理得分45.4,啟用上下文管理后躍升至58.3。這些數據表明,模型不僅能編寫代碼,更能理解復雜任務邏輯,支持多輪智能交互。更值得關注的是,其文本生成質量已接近頂級閉源模型,可勝任日常助手角色。
支撐這些突破的是兩項核心技術創新。混合滑動窗口注意力機制采用5層滑動窗口與1層全局注意力交替的設計,滑動窗口固定為128個token。這種激進方案使KV緩存存儲量減少近6倍,卻能維持256k超長上下文窗口。項目負責人羅福莉透露,實驗發現128是"最佳甜點值",盲目擴大窗口反而導致性能下降,同時強調sink values機制對維持性能至關重要。
另一項突破是輕量級多Token預測(MTP)模塊。傳統模型逐token生成的方式被徹底顛覆,新模塊可并行預測多個token,實測平均接受2.8-3.6個token,推理速度提升2-2.6倍。在三層MTP設置下,編碼任務速度提升約2.5倍,有效解決了小批量強化學習中"長尾樣本"導致的GPU空閑問題。雖然目前MTP尚未完整集成RL訓練循環,但小米已開源三層實現,供開發者自由使用。
訓練效率的革命性提升源于FP8混合精度技術和多教師在線策略蒸餾(MOPD)框架。預訓練階段在27萬億token數據上完成,原生支持32k序列長度;后訓練階段通過MOPD框架,讓學生模型在自身策略分布上采樣,由多個專家教師提供實時反饋。這種模式僅需傳統方法1/50的算力即可達到同等性能,且支持動態接入新教師,形成"教學相長"的閉環進化系統。
開發者生態建設同樣值得關注。模型已與Claude Code、Cursor、Cline等主流開發環境無縫對接,256k上下文窗口可支持數百輪智能體交互。所有推理代碼已貢獻給SGLang社區,技術報告完整披露模型細節,基礎權重在Hugging Face平臺以MIT協議開源。目前API平臺正限時免費開放,開發者可立即體驗這款"性能怪獸"。項目團隊透露,這僅是小米AGI路線圖的第二步,后續計劃通過擴大模型規模和訓練算力持續縮小與閉源模型的差距。
HuggingFace模型地址:http://hf.co/XiaomiMiMo/MiMo-V2-Flash
技術報告地址:http://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf
















