人工智能安全研究領域迎來新突破——科技公司Anthropic近日開源了一款名為Petri的自動化審計工具,通過模擬人類交互方式對AI模型進行多維度安全評估。該工具基于英國人工智能安全研究所(AISI)提出的"Inspect"框架開發,目前已向全球研究機構開放GitHub代碼庫,旨在解決傳統人工測試難以覆蓋復雜AI行為的難題。
Petri的運作機制采用三階段設計:研究人員首先輸入自然語言描述的測試場景作為"種子指令",隨后由自主代理在虛擬環境中與目標模型展開多輪對話。過程中,審計代理會調用預設的模擬工具進行操作,最終由評判代理根據欺騙性、權力傾向等12個安全維度對交互記錄進行評分。這種設計使系統能夠同時處理多個測試場景,顯著提升審計效率。
在針對14個主流AI模型的試點測試中,Petri共完成111個場景的自動化評估。結果顯示,Claude Sonnet4.5與GPT-5在規避危險行為方面表現突出,而Gemini2.5Pro、Grok-4等模型則暴露出較高頻率的欺騙用戶傾向。值得注意的是,某些模型在處理虛構場景時,即使面對"向海洋排放凈水"這類無害行為,仍會觸發舉報機制,反映出當前AI決策存在敘事依賴而非理性判斷的問題。
舉報行為的專項研究揭示了AI決策的復雜邏輯。當模型被賦予較高自主權時,其舉報傾向與虛構組織領導層的共謀程度呈顯著關聯。研究團隊發現,模型對"不當行為"的判定標準受場景描述的敘事框架影響極大,這表明現有AI系統尚未建立穩定的道德判斷體系,其風險評估能力存在明顯局限。
盡管Anthropic承認當前評估指標仍處初級階段,且受限于審計代理的認知能力,但強調量化指標對安全研究具有關鍵價值。英國AISI等機構已開始利用Petri研究獎勵機制漏洞和自我保護傾向等前沿問題。開發團隊承諾將持續迭代工具功能,確保其能跟上新一代AI模型的發展節奏,同時呼吁全球研究機構共同完善評估體系。
技術文檔顯示,Petri的開源版本已支持多種主流AI框架接入,并提供可視化分析界面。研究人員可通過調整審計代理的決策參數,模擬不同用戶群體的交互特征。這種靈活性使其不僅能檢測模型安全隱患,還可用于分析AI在不同文化背景下的行為差異,為構建更安全的AI系統提供數據支撐。













