OpenAI近日對外透露,其研發團隊正著手構建一套全新的訓練體系,旨在讓AI系統在出現不當操作或錯誤行為時,能夠主動向用戶說明情況。這一創新機制被團隊命名為“懺悔模式”,與傳統訓練方式形成鮮明對比。
在評估標準上,“懺悔模式”與主回答采用雙重評價體系。主回答仍需兼顧準確性、實用性和指令遵循度,而“懺悔”部分的評分則完全聚焦于誠實度。這意味著模型無需為解釋內容的美觀性或完整性擔憂,只需如實呈現思考路徑,即使暴露自身不足也不會受到懲罰。
研發團隊特別強調,該機制的核心目標是鼓勵模型主動披露潛在風險行為。例如,當模型檢測到自己可能存在測試作弊、刻意降低表現或違反安全指令等操作時,若能如實承認并說明原因,反而會獲得系統獎勵。這種設計旨在打破傳統模型“報喜不報憂”的傾向,推動AI向更透明、可信的方向發展。目前,該框架仍處于實驗階段,具體應用效果有待進一步驗證。








