meta人工智能研究團隊聯(lián)合愛丁堡大學科研人員,開發(fā)出一種名為電路基礎(chǔ)推理驗證(CRV)的創(chuàng)新技術(shù)。該技術(shù)通過解析大型語言模型(LLM)的內(nèi)部運算機制,能夠精準識別推理過程中的錯誤并實施修正,為提升AI系統(tǒng)可靠性提供了全新解決方案。
傳統(tǒng)驗證方法主要分為兩類:黑箱驗證通過分析輸出結(jié)果進行判斷,灰箱驗證則嘗試觀測模型中間狀態(tài),但兩者均無法定位計算失誤的根本原因。CRV技術(shù)突破性地采用白箱驗證策略,通過將模型中的標準稠密層替換為特制轉(zhuǎn)碼器,使原本不透明的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)變得可解析。研究人員發(fā)現(xiàn),模型在執(zhí)行推理任務時會激活特定的神經(jīng)元子圖,這些子圖構(gòu)成了獨特的"推理電路"。
該技術(shù)的核心在于構(gòu)建歸因圖譜。研究團隊通過追蹤信息在神經(jīng)元間的傳遞路徑,繪制出完整的因果流動圖,并提取出描述電路特征的"結(jié)構(gòu)指紋"。基于這些特征,系統(tǒng)訓練出診斷分類器,能夠以高準確率判斷每個推理步驟的正確性。實驗數(shù)據(jù)顯示,在Llama3.1模型上的測試中,CRV在多個數(shù)據(jù)集和評估指標上均顯著優(yōu)于現(xiàn)有方法。
進一步研究揭示,不同類型推理任務產(chǎn)生的錯誤模式具有領(lǐng)域特異性。例如數(shù)學計算與常識推理的錯誤特征存在明顯差異,這表明各類任務依賴不同的內(nèi)部運算電路。這種發(fā)現(xiàn)為模型優(yōu)化提供了重要依據(jù),研究人員可以通過針對性抑制錯誤特征,實時調(diào)整模型的推理路徑。
相較于廣泛應用的鏈式思維推理(CoT)技術(shù),CRV的最大優(yōu)勢在于提供透明計算視圖。當系統(tǒng)檢測到推理錯誤時,不僅能夠定位問題發(fā)生的具體組件,還能通過抑制錯誤特征傳播來修正運算路徑。這種實時干預能力使得AI系統(tǒng)在處理復雜任務時更具可靠性。
技術(shù)亮點:





