商湯科技近日宣布,正式推出并開源其全新空間智能大模型系列SenseNova-SI,在空間理解與推理能力方面實現重要突破。該系列模型在多項權威基準測試中表現優異,不僅顯著超越同量級開源多模態模型,更在空間智能任務上領先于GPT-5、Gemini 2.5 Pro等國際頂尖閉源模型。
當前主流大模型雖在知識問答、文本生成、邏輯推理等領域表現突出,但在處理空間結構信息時仍存在明顯短板。這種能力缺陷直接限制了具身智能體與物理世界交互的效率,例如機器人導航、自動駕駛等場景均需要精準的空間感知能力。商湯科技此次發布的成果,正是針對這一行業痛點展開的技術攻關。
開源的SenseNova-SI系列包含2B和8B兩種參數規模的模型版本。根據官方披露的評測數據,在VSI、MMSI、MindCube、ViewSpatial等空間智能專項測試中,該系列模型均取得領先成績。其中8B版本在四個核心基準測試中平均得分達60.99,較Qwen3-VL-8B(40.16)、BAGEL-7B(35.01)等開源模型提升顯著,甚至超越了參數規模更大的GPT-5(49.68)和Gemini-2.5-Pro(48.81)。
具體案例對比顯示,在立方體組合圖形的俯視圖識別任務中,SenseNova-SI-8B準確選擇正確答案B,而GPT-5誤選D;在空間方位判斷場景中,面對"手持相機者視角下摩托車位置"的問題,SenseNova-SI-8B正確識別右側方位,GPT-5則給出錯誤答案。更復雜的動態場景測試中,該模型在多車道車輛轉向預測、視角變化下的移動方向判斷等任務中,均展現出更高的準確率。
技術團隊通過創新的空間表征學習框架,使模型能夠高效解析幾何關系、物體方位及動態軌跡等復雜空間信息。這種突破性進展不僅體現在靜態場景理解,更延伸至動態環境預測領域。例如在自動駕駛場景測試中,SenseNova-SI-8B成功識別黃色車輛的右轉意圖,而GPT-5誤判為靜止狀態。
該系列模型已通過GitHub平臺全面開源,開發人員可訪問指定地址獲取完整代碼與訓練數據集。此舉將為空間智能領域的研究提供重要基礎設施,推動機器人導航、增強現實、智能駕駛等應用場景的技術革新。商湯科技表示,將持續優化模型性能,并探索與三維重建、物理仿真等技術的融合應用。











