小米近日宣布,正式推出并開源全球首個實現自動駕駛與具身智能深度融合的跨域基座模型MiMo-Embodied。該模型及訓練權重已在國際知名學術平臺arXiv與開源社區Hugging Face同步開放,標志著智能體技術進入跨場景協同新階段。
技術架構層面,MiMo-Embodied突破傳統模型單一場景限制,通過統一參數架構同時處理六大核心任務:在具身智能領域實現物體可用性判斷、復雜任務拆解與三維空間建模;在自動駕駛場景完成動態環境感知、車輛狀態預測及路徑規劃優化。這種設計使室內機器人操作與室外車輛決策共享底層認知框架,形成跨域知識遷移的協同效應。
訓練策略采用三階段強化機制:首先通過多模態數據構建基礎能力,繼而引入思維鏈(Chain-of-Thought)推理增強邏輯連貫性,最終通過深度強化學習(RL)優化真實場景魯棒性。這種漸進式訓練方式使模型在復雜動態環境中的部署可靠性提升40%以上,顯著降低實際應用的適配成本。
性能驗證顯示,該模型在29項跨領域基準測試中全面領先。具身智能方向的17項評測中,15項刷新現有最優記錄(SOTA),包括機械臂操作精度、多任務規劃效率等關鍵指標;自動駕駛方向的12項測試中,在雨霧天氣感知、突發狀況決策等復雜場景表現突出,部分指標超越行業頭部閉源模型。更值得關注的是,模型在通用視覺語言任務中展現出跨模態理解能力,驗證了其作為智能底座的擴展潛力。
應用落地方面,小米已制定清晰路線圖:2026年第一季度起,通過OTA升級將模型部署至自研掃地機器人、工業AGV及SU7系列智能汽車,實現室內外智能體的認知能力躍遷。同時開放模型API接口,為智能家居、智慧物流、智能制造等領域開發者提供跨場景解決方案,推動形成"感知-決策-執行"全鏈條的智能生態體系。









