人工智能領域長期面臨空間理解能力的瓶頸,即便最先進的多模態大模型也常在基礎空間任務上出錯。華中科技大學連世杰、吳長提團隊聯合多家研究機構,通過讓AI系統學習幾何知識,成功突破了這一技術壁壘。該研究成果以預印本形式發表于arXiv平臺(編號arXiv:2509.24473v2),揭示了幾何訓練對空間智能提升的顯著效果。
研究團隊構建的Euclid30K數據集包含近3萬個幾何問題,涵蓋平面幾何與立體幾何兩大領域。數據收集過程中,研究人員發現現有數據集存在嚴重失衡:立體幾何題目僅占現有資源的23%。為此,他們從Geometry3K、MMK12等開源庫篩選優質題目,同時新增4500個立體幾何問題,重點補充空間關系判斷、動態運動分析等復雜題型。經過三階段質量控制,包括圖像去重、問題拆解和格式標準化,最終形成覆蓋初中到高中全課程體系的數據集。
幾何訓練的核心價值在于其系統性。研究團隊將幾何問題視為空間規律的"訓練場",通過GRPO強化學習框架,讓AI模型在解題過程中掌握形狀識別、空間推理和數值計算等綜合能力。實驗數據顯示,經過幾何訓練的RoboBrain2.0-7B模型在VSI-Bench測試中準確率達49.6%,超越此前48.4%的最佳紀錄。更值得注意的是,該模型僅使用3萬條幾何數據就達到這一水平,而同期對比模型使用了12萬條專用空間數據。
在Super-CLEVR測試中,幾何訓練展現驚人效果。Qwen2.5VL-7B模型的準確率從76.1%躍升至86.2%,RoboBrain2.0-7B的提升幅度更達37.8個百分點。這種跨越式進步源于幾何知識的強遷移性——模型學會的平行判斷、比例計算等基礎技能,可直接應用于現實場景中的物體定位和空間關系分析。研究團隊特別指出,立體幾何訓練對三維空間理解的提升尤為顯著,在Omni3D-Bench測試中,相關模型的空間定位準確率提升2.8個百分點。
技術實現層面,研究團隊采用多項創新設計。獎勵函數針對不同題型定制評判標準:數學表達式答案通過MathVerify工具進行符號等價驗證,數值答案則設置1%的嚴格誤差容忍度。訓練過程中,每個問題生成8個候選答案,通過組內比較優化解題策略。這種設計使模型既能掌握數學本質,又能適應不同表達形式。硬件配置上,64塊NVIDIA H100 GPU組成的計算集群,為大規模強化學習提供算力支持。
實際應用場景中,幾何訓練提升的空間智能已展現多重價值。在機器人導航領域,經過訓練的模型能更精準判斷物體間距和運動軌跡;醫療影像分析方面,AI對器官尺寸的測量誤差顯著降低;自動駕駛系統則獲得更可靠的空間關系判斷能力。研究團隊強調,這種基礎能力訓練具有高通用性,相比為每個應用單獨收集數據,幾何訓練方案可降低60%以上的開發成本。
對比實驗進一步驗證了幾何訓練的獨特優勢。使用CLEVR-CoGenT數據集訓練的模型雖也有提升,但效果局限于特定任務類型。幾何訓練的優勢在于其覆蓋空間智能的核心要素,包括形狀識別準確率提升12%、空間關系判斷一致性提高18%、數值計算精確度改進9%。這些基礎能力的提升,使模型在物體計數、距離估算等基礎任務上的準確率普遍提高5-8個百分點。
研究也揭示當前方法的局限性。在涉及時間序列的空間任務中,幾何訓練的效果相對有限,這提示未來需結合時序學習進行能力拓展。對于需要特定領域知識的復雜空間分析,幾何基礎訓練仍需補充專業數據。盡管如此,該研究為AI空間智能發展開辟了新路徑——通過系統化學習基礎理論,可高效構建通用空間能力,這種"以簡馭繁"的方法論或將成為行業重要方向。











