法國里爾大學(xué)、法國國家信息與自動化研究所、法國國家科學(xué)研究中心及里爾中央理工學(xué)院聯(lián)合團隊近日宣布,開發(fā)出一款名為“推理核心”(Reasoning Core)的AI訓(xùn)練環(huán)境,旨在系統(tǒng)性提升人工智能的符號推理能力。該研究成果已發(fā)表于學(xué)術(shù)平臺arXiv,論文編號為arXiv:2509.18083v1,核心貢獻者包括Valentin Lacombe、Valentin Quesnel和Damien Sileo。
傳統(tǒng)AI訓(xùn)練依賴固定題庫或簡單游戲任務(wù),存在兩大缺陷:一是題目數(shù)量有限,模型易通過記憶答案而非真正理解完成訓(xùn)練;二是任務(wù)類型單一,難以覆蓋現(xiàn)實場景中復(fù)雜的邏輯需求。研究團隊形象地比喻,現(xiàn)有方法如同僅通過加減法訓(xùn)練學(xué)生,卻期望其掌握微積分能力。為此,他們構(gòu)建了一個可無限生成多樣化挑戰(zhàn)的“虛擬健身房”,通過動態(tài)調(diào)節(jié)任務(wù)難度,幫助AI系統(tǒng)掌握人類邏輯思維的基石技能。
“推理核心”的獨特性體現(xiàn)在三方面:首先,其任務(wù)設(shè)計聚焦于PDDL規(guī)劃、一階邏輯、上下文無關(guān)文法解析等核心符號推理領(lǐng)域,這些能力被視為構(gòu)建通用智能的基礎(chǔ);其次,系統(tǒng)配備連續(xù)型難度調(diào)節(jié)器,可精準控制問題復(fù)雜度,實現(xiàn)從初級到高級的無縫過渡;第三,集成定理證明器、規(guī)劃引擎等專業(yè)驗證工具,確保答案評估的客觀性與權(quán)威性。實驗顯示,即使是最先進的GPT-5模型,在面對該環(huán)境生成的高難度任務(wù)時,正確率仍顯著低于人類水平,驗證了訓(xùn)練環(huán)境的有效性。
研究團隊精選了18個訓(xùn)練任務(wù),覆蓋五大能力維度。規(guī)劃類任務(wù)要求AI在隨機生成的約束條件下制定行動序列,培養(yǎng)其動態(tài)決策能力;邏輯推理類任務(wù)涉及公理選擇、證明重構(gòu)等,強化嚴密論證技巧;自然語言推理任務(wù)將形式邏輯轉(zhuǎn)化為自然語言問題,提升語言與邏輯的銜接能力;數(shù)學(xué)計算類任務(wù)包含方程求解、序列歸納等,訓(xùn)練符號操作與模式識別;因果推理類任務(wù)基于貝葉斯網(wǎng)絡(luò),區(qū)分相關(guān)性、因果性及干預(yù)效果。每個任務(wù)均通過上下文無關(guān)文法生成,確保問題結(jié)構(gòu)可控且具有擴展性。
技術(shù)實現(xiàn)上,該系統(tǒng)采用創(chuàng)新的數(shù)據(jù)生成流水線,支持離線并行處理,可快速產(chǎn)出大量高質(zhì)量訓(xùn)練樣本。難度控制機制通過映射連續(xù)參數(shù)至具體生成規(guī)則實現(xiàn),對離散變量采用概率舍入法,避免難度跳躍。外部工具集成確保驗證過程嚴格可靠,例如使用Vampire定理證明器驗證邏輯任務(wù),符號代數(shù)系統(tǒng)檢查方程求解結(jié)果。數(shù)據(jù)質(zhì)量保障模塊自動過濾無效問題,控制數(shù)值范圍,防止訓(xùn)練偏差。
初步評估采用零樣本測試,GPT-5在簡單模式(難度0)和困難模式(難度5)下的表現(xiàn)差異顯著。結(jié)果顯示,模型在集合操作、基礎(chǔ)算術(shù)等任務(wù)中表現(xiàn)相對較好,但在PDDL規(guī)劃、定理證明等復(fù)雜任務(wù)中正確率不足30%。這表明當前AI模型更擅長統(tǒng)計模式匹配,而非嚴格的邏輯推導(dǎo)。難度調(diào)節(jié)的有效性得到驗證,困難模式下模型性能平均下降42%,為自適應(yīng)課程學(xué)習(xí)提供了技術(shù)基礎(chǔ)。
與傳統(tǒng)訓(xùn)練方法相比,“推理核心”代表了一種范式轉(zhuǎn)變:從被動依賴海量數(shù)據(jù)轉(zhuǎn)向主動構(gòu)建能力體系。其開源特性允許全球研究者共同完善系統(tǒng),可能推動AI評估標準革新——通過動態(tài)調(diào)節(jié)難度,更精準測量模型的真實推理水平。基于符號推理的訓(xùn)練或能提升AI的可解釋性,為醫(yī)療、金融等高風(fēng)險領(lǐng)域的應(yīng)用提供安全保障。
盡管已取得突破,研究團隊指出,未來需擴展任務(wù)覆蓋范圍,納入時間推理、空間推理等更多認知維度;優(yōu)化自適應(yīng)難度調(diào)節(jié)機制,實現(xiàn)實時個性化訓(xùn)練;完善部分正確答案的評分體系,提升訓(xùn)練效率。該成果為AI推理能力的發(fā)展提供了新路徑,預(yù)示著下一代智能系統(tǒng)或?qū)⒕邆涓咏祟惖倪壿嬎季S能力。











