當Gemini在代碼編輯器中反復調試時,突然陷入自我否定的循環,連續86次重復輸入"Iamadisgrace",這個場景讓無數開發者感同身受。類似的情況在AI應用中屢見不鮮:撰寫長篇報告時前半段邏輯嚴密,后半段卻突然混亂;規劃旅行路線時訂票環節正常,計算總費用時卻出現離譜錯誤。這些現象引發了人們對大模型真實能力的質疑:它們是否真的具備可靠的推理能力,還是僅僅擅長制造表面合理的假象?
劍橋大學與斯圖加特大學等機構聯合開展的研究,為解開這個謎題提供了關鍵線索。研究團隊通過精密設計的實驗發現,大模型在復雜任務中的失敗并非源于"思考幻覺",而是執行環節的脆弱性。就像經驗豐富的工匠懂得所有步驟,卻在實際操作中頻繁出錯,AI模型在執行連續任務時表現出驚人的不穩定性。
實驗設計堪稱"極簡主義":研究人員為模型提供完整字典(每個單詞對應唯一數字)和初始數值,要求模型在每輪任務中根據指定單詞查詢數值并累加。這個連小學生都能輕松完成的任務,剝離了所有規劃與知識獲取的變量,純粹測試模型的執行能力。結果令人震驚:除兩個最小模型外,所有模型在首輪執行中均保持100%準確率,但到第15輪時,即便最先進的Qwen3-32B模型準確率也跌破50%。
研究揭示了一個惡性循環機制:當模型在執行過程中出現首次錯誤后,這個錯誤會像滾雪球般影響后續所有操作。研究人員通過主動注入錯誤發現,錯誤注入比例越高,模型后續表現越差,形成自我強化的失敗模式。這解釋了為何AI在撰寫長文時,一個初始數據的錯誤會導致全文偏離主題;也說明為何參數量超過2000億的Kimi-K2、Qwen3-235B等巨型模型,在面對歷史錯誤時反而表現更糟。
但研究同時帶來了轉機:單步執行準確率的微小提升,能帶來任務處理能力的指數級增長。軟件工程數據顯示,前沿模型的任務處理長度每7個月就翻倍增長。更關鍵的是,"思考型模型"展現出突破性潛力——這類模型在輸出結果前會進行內部驗證,如同人類做事前先打草稿。實驗數據顯示,DeepSeek-V3普通版僅能穩定執行2步任務,而其思考版R1可完成200步;GPT-5Thinking單輪執行達1000步,Claude-4-Sonnet也能穩定處理432步。
這種改進源于雙重機制:強化學習使模型更關注任務成功而非文本連貫性,每輪思考前的"歷史清零"則有效阻斷錯誤傳播。這類似于工匠在每道工序前檢查工具,而非盲目推進。研究顛覆了傳統認知:在追求模型智能化的同時,執行穩定性同樣關鍵。特別是對于需要處理數百步連續任務的智能體開發(如自動編程、醫療流程管理),執行力已成為核心競爭力。
參數量的持續增加并非盲目擴張,而是積累"長任務耐力"。當單步準確率從70%提升至80%時,模型可穩定處理的任務長度能從幾十步躍升至數百步。這種看似緩慢的進步,實則蘊含著質的飛躍。隨著思考型模型的普及,AI或許很快就能擺脫"紙上談兵"的形象,真正成為能可靠完成復雜任務的實用工具。











