當人工智能模型在處理復雜問題時,人們通常會通過提供示例來提升其推理能力,這種被稱為“少樣本思維鏈”的技術曾被視為AI進步的里程碑。然而,新加坡國立大學與悉尼大學、MiroMind AI聯合開展的一項研究卻發現,這種方法對現代AI模型可能適得其反——示例非但沒有提升性能,反而導致準確率大幅下降。
研究團隊選取了DeepSeek-R1、Qwen系列等前沿模型,在數學競賽題和科學推理任務中展開測試。結果顯示,即使提供與問題高度相關的優質示例,模型的表現仍會顯著惡化,示例數量越多,錯誤率越高,部分場景下準確率降幅超過35%。這一現象被類比為“經驗豐富的廚師在旁人反復指導下反而做砸菜”——現代AI經過強化學習訓練后,已形成穩定的內在推理邏輯,外部示例的介入反而會干擾其決策流程。
進一步分析揭示了問題根源。其一為“表面相似性陷阱”:當示例與目標問題在措辭或結構上高度相似時,AI會機械套用解題步驟,忽視問題本質差異。例如,面對“蘋果與橘子”相關的題目時,AI可能將計算重量的方法錯誤應用于價格計算。其二為“策略提取失敗”:AI難以從示例中提煉抽象策略,往往只能捕捉到表面模式,如同學習者僅記住詞匯搭配卻未理解邏輯框架。
針對上述缺陷,研究團隊提出了“洞察到解答”(Insight-to-Solve, I2S)方法。該方法通過三步流程優化推理過程:首先引導AI對比示例與目標問題的異同,避免混淆;其次提取示例中的通用策略,如“分析數據結構”或“驗證邊界條件”;最后基于抽象原則構建全新解決方案,而非直接模仿具體步驟。其升級版I2S+還引入了自我修正機制,允許AI在2-3輪迭代中優化推理路徑,主動排查邏輯漏洞。
實驗數據證實了新方法的有效性。在AIME 2025數學競賽測試中,7B參數模型使用I2S+后準確率從42%提升至51.33%,GPT-4.1的準確率則從34%躍升至48%。值得注意的是,該方法不僅適用于開源模型,對GPT-4.1、o1-mini等閉源商業模型同樣有效。I2S在計算效率上也表現優異,相比“多答案投票”策略,它能以更低的資源消耗實現更優結果。
在開放式推理任務中,I2S同樣展現出穩定性。以GPT-4.1為評判標準的測試顯示,該方法在工程和通用推理場景中帶來1-2個百分點的性能提升。盡管提升幅度小于數學任務,但考慮到開放式問題的主觀性,這一結果仍具有實際價值。研究還發現,迭代改進的效果因問題類型而異:數學問題中,模型規模越大,迭代收益越明顯;而開放式任務中,小型模型過度迭代可能導致性能下降,提示需針對不同場景調整策略。
從技術實現看,I2S具有輕量化優勢。其流程僅需三次模型調用:問題對比、策略分析和答案構建,無需對原模型進行重新訓練,可直接集成到現有系統中。這種特性使其在學術研究和商業應用中均具備推廣潛力,例如復雜推理任務、AI教育工具或科學計算領域。
該研究還揭示了AI能力演進帶來的新挑戰。隨著模型推理能力提升,傳統訓練方法可能失效,需探索更適配先進AI的交互模式。例如,表面合理的輸入未必產生積極效果,這要求開發者更謹慎地設計系統交互邏輯。同時,AI的“智能”機制與人類存在本質差異,優化其表現需突破人類認知框架。
跨機構合作在此研究中發揮了關鍵作用。新加坡國立大學、悉尼大學與MiroMind AI的聯合團隊整合了學術研究的深度與產業實踐的效率,為解決復雜AI問題提供了范例。這種模式或將成為未來AI領域的重要趨勢,通過多方優勢互補推動技術突破。
研究的核心啟示在于:AI技術的快速發展要求我們重新審視傳統方法的有效性。與其過度干預AI的內在推理,不如通過理解其工作機制,開發更適配的交互策略。I2S方法的成功正是這一思路的體現——通過優化示例利用方式,釋放AI的潛在能力。











