小米公司近日宣布,其自主研發(fā)的具身大模型MiMo-Embodied正式面向全球開源,這一舉措被視為通用具身智能領(lǐng)域的重要突破。該模型通過創(chuàng)新架構(gòu)設計,首次實現(xiàn)了自動駕駛與具身智能兩大技術(shù)體系的深度融合,為跨場景智能應用開辟了新路徑。
針對行業(yè)長期存在的"室內(nèi)外智能割裂"難題,研發(fā)團隊構(gòu)建了統(tǒng)一的任務建模框架。模型突破傳統(tǒng)垂直領(lǐng)域限制,在具身智能端可同步處理可供性推理、任務規(guī)劃、空間理解三大核心任務,在自動駕駛端則具備環(huán)境感知、狀態(tài)預測、駕駛規(guī)劃的完整能力鏈。這種跨域協(xié)同機制使得機器人與車輛的能力邊界得以拓展,例如家庭服務機器人通過知識遷移可理解交通規(guī)則,自動駕駛系統(tǒng)則能借鑒室內(nèi)導航的精細操作經(jīng)驗。
技術(shù)實現(xiàn)層面,模型采用多階段強化學習策略,通過"具身能力學習-自駕能力遷移-CoT推理增強-RL精細優(yōu)化"的四步訓練法,顯著提升了復雜環(huán)境下的決策可靠性。實驗數(shù)據(jù)顯示,在29項涵蓋感知、決策、規(guī)劃的核心基準測試中,該模型全面超越現(xiàn)有開源及閉源方案,其中具身智能領(lǐng)域17項測試刷新最高紀錄,自動駕駛領(lǐng)域12項測試實現(xiàn)全鏈路性能突破,通用視覺語言任務的泛化能力亦有顯著提升。
開源版本包含70億參數(shù)的基礎模型,開發(fā)者可通過Hugging Face平臺獲取完整訓練代碼與預訓練權(quán)重。小米技術(shù)團隊特別強調(diào),模型設計充分考慮了硬件適配性,支持在消費級GPU上高效部署,這為中小企業(yè)及研究機構(gòu)參與具身智能生態(tài)建設提供了技術(shù)基礎。目前已有多個合作方啟動基于該模型的垂直場景開發(fā),涵蓋工業(yè)巡檢、物流搬運、智慧交通等多個領(lǐng)域。
開源地址:https://huggingface.co/XiaomiMiMo/MiMo-Embodied-7B











