上海人工智能實驗室聯合上海交通大學、蘇州大學的研究團隊,在人工智能訓練領域取得突破性進展。他們提出的Caco方法通過引入代碼驗證機制,為AI數學推理訓練開辟了新路徑。這項成果已發表于arXiv預印本平臺,論文編號arXiv:2510.04081v1,為提升AI邏輯推理能力提供了全新解決方案。
傳統AI在解決數學問題時,常被比作機械套用公式的"解題機器"。這類系統雖然能輸出答案,但推理過程缺乏邏輯連貫性,錯誤難以追溯。更嚴峻的是,高質量訓練數據的獲取需要大量人工標注,成本高昂且效率低下。研究團隊開發的Caco方法,通過將數學問題轉化為可執行代碼,構建了自動化的質量驗證體系,有效解決了這些難題。
該方法的核心在于構建"代碼-推理"雙驗證系統。研究團隊首先收集了MATH、DeepScaleR等數據集中的30萬個數學問題,將其解答過程統一轉換為Python代碼格式。每段代碼需包含明確的輸入定義、函數調用和輸出結果,例如概率問題會被轉化為包含概率數組和計算函數的標準化代碼模塊。這種結構化處理使得推理過程可被計算機自動驗證。
為生成高質量訓練數據,團隊開發了專門的CodeGen模型。該模型通過無條件生成方式學習代碼推理模式,而非簡單記憶問題答案。通過溫度采樣技術,模型在保持邏輯嚴謹性的同時引入適度隨機性,最終生成530萬個候選代碼樣本。經過可執行性、效率和復雜度三重篩選,最終保留460萬個高質量樣本,形成包含130萬個問題-答案對的訓練集。
實驗數據顯示,Caco方法顯著提升了AI模型的數學推理能力。在MATH、GSM8K等六個基準測試中,LLaMA3-8B模型經Caco訓練后準確率從39.7%躍升至57.3%,提升幅度達44.3%。面對奧林匹克數學競賽題目時,該模型準確率從17.2%提升至34.1%,展現出處理復雜問題的潛力。專業數學模型Qwen2.5-Math-7B使用Caco數據后,準確率也從63.6%提高到67.7%。
該方法的價值不僅體現在數學領域。跨領域測試表明,經Caco訓練的模型在代碼生成、科學推理和邏輯推理任務中同樣表現優異。在Humaneval+代碼生成測試中,模型得分從32.3%提升至34.2%;ARC-c科學推理測試準確率從79.0%升至83.1%;BBH邏輯推理測試成績從19.8%大幅提高到33.8%。這證明代碼訓練形成的嚴謹思維方式具有廣泛的遷移價值。
研究團隊詳細記錄了數據生成過程的計算成本。在配備8塊A100 GPU的單機環境下,完成130萬樣本生成需約55小時,包括統一代碼推理(2小時)、代碼擴展(8小時)、問題生成(5小時)和答案生成(40小時)四個階段。完全基于開源模型的實施方案,避免了商業API的高昂費用,使得該方法具有較高的成本效益。
技術實現層面,研究團隊采用多模型協作框架。Qwen2.5-72B-Instruct負責統一代碼生成,Qwen2.5-Coder-7B作為CodeGen基礎模型,Qwen3-8B處理自然語言生成,Qwen3-32B進行質量評估。訓練配置采用3個epoch、5×10^-6學習率、128批處理大小,配合AdamW優化器和余弦學習率衰減策略。評估過程嚴格采用零樣本設置和貪婪解碼策略,確保結果可靠性。
這項創新為AI訓練提供了新范式。通過將抽象推理轉化為可執行代碼,不僅解決了傳統方法的質量控制難題,還大幅降低了數據標注成本。代碼的精確性要求促使AI發展出更嚴謹的思維方式,這種能力可遷移至多個需要邏輯推理的領域。開源的技術方案降低了應用門檻,為開發更智能的AI系統奠定了基礎。











