人工智能在解決復雜問題時,常采用并行推理策略——同時生成多個推理過程,從中選出最優(yōu)解。然而最新研究發(fā)現(xiàn),這種看似高效的方法存在嚴重缺陷:超過80%的并行推理最終會得出相同結論,導致大量計算資源被浪費在重復勞動上。這一現(xiàn)象猶如30名學生解答同一道數(shù)學題,其中25人提交了幾乎相同的解題過程,僅有5人提供了差異化思路。
由清華大學與上海科技大學聯(lián)合研究團隊提出的DeepPrune技術,為解決該問題提供了創(chuàng)新方案。研究團隊將AI推理過程比作果樹生長,指出傳統(tǒng)方法放任所有"枝條"自由生長,而DeepPrune則像經驗豐富的園丁,能在枝條發(fā)育早期識別出哪些會結出相同果實,從而精準修剪冗余枝條。實驗數(shù)據(jù)顯示,該方法可使計算資源消耗減少80%以上,部分場景下甚至達到91.6%的削減率。
研究團隊選取DeepSeek-8B、Qwen3-4B等四種先進AI模型進行測試,要求每個模型針對數(shù)學和科學問題同時生成16個推理過程。結果顯示,GLM-4.5-Air模型生成的推理對中,94.5%得出相同結論;即便是表現(xiàn)最佳的DeepSeek模型,也有76%的推理過程產生重復結果。這種普遍存在的冗余現(xiàn)象,促使研究團隊開發(fā)專門的"推理相似度判斷專家"。
該判斷系統(tǒng)的訓練過程頗具挑戰(zhàn)性。研究團隊從數(shù)學競賽題庫中選取758個問題,使用特定模型為每個問題生成16個推理路徑,最終獲得約8萬對推理過程比較數(shù)據(jù)。為解決數(shù)據(jù)不平衡問題(相同結果樣本占80%),團隊采用"焦點損失"技術強化模型對困難案例的學習,同時運用"過采樣"技術增加少數(shù)類樣本數(shù)量。經過優(yōu)化,判斷系統(tǒng)的準確率達到87.01%,在控制誤判率20%的情況下,仍能正確識別81.86%的差異化推理路徑。
在實際應用中,研究團隊設計了"貪心聚類"在線算法。當新推理過程生成時,系統(tǒng)會將其與現(xiàn)有"文件夾"中的內容進行相似度比對。若相似度超過閾值(設為0.5),則歸入相應文件夾;若不匹配,則創(chuàng)建新文件夾。該算法通過限制最大文件夾數(shù)量(32個)和隨機選取代表性樣本(最多10個)進行比對,既保證了判斷效率,又避免了過度修剪。最終答案采用多數(shù)投票制,從包含最多相似推理的文件夾中選取樣本完成推理。
實驗驗證環(huán)節(jié),研究團隊在AIME 2024、AIME 2025和GPQA三個競賽數(shù)據(jù)集上,對DeepSeek-8B、Qwen3-32B和GPT-OSS-20B三種模型進行測試。與傳統(tǒng)"生成512個推理過程后投票"的方法相比,DeepPrune在保持準確率相當?shù)那闆r下,計算量顯著減少。特別是在Qwen3-32B模型處理AIME25問題時,計算量削減91.4%的同時,準確率從80%提升至90%。與基于置信度的早停方法DeepConf相比,DeepPrune在計算量減少和準確性維持方面均表現(xiàn)更優(yōu)。
技術細節(jié)方面,研究團隊發(fā)現(xiàn)采用"推理步驟對齊"的截取方法(基于"因此""所以"等邏輯標志詞)比簡單固定長度截取更有效,準確率提升1.45個百分點。消融實驗證實,焦點損失與過采樣技術的組合使用至關重要,單獨應用任何一種技術都無法達到最佳效果。相似度閾值設置為0.5時,系統(tǒng)能在效率提升與答案多樣性間取得良好平衡。
盡管DeepPrune展現(xiàn)出顯著優(yōu)勢,研究團隊也指出其局限性。當前判斷系統(tǒng)僅在特定模型推理數(shù)據(jù)上訓練,對差異較大的模型架構適應性有待驗證;貪心聚類算法可能因早期相似性判斷失誤而導致局部最優(yōu)決策;判斷專家自身的計算開銷在簡單推理任務中占比可能較高;相似度閾值需根據(jù)具體任務調整,增加了系統(tǒng)部署復雜度。這些發(fā)現(xiàn)為后續(xù)研究指明了改進方向。
對于普通用戶而言,該技術意味著未來移動設備可能運行更強大的AI助手,在線服務響應速度將顯著提升。在科研領域,藥物設計、工程優(yōu)化等需要大量并行推理的任務,將因計算效率提升而加速突破。技術細節(jié)可查閱論文編號arXiv:2510.08483v1的完整研究報告。











