OpenAI 剛剛公開(kāi)了一項(xiàng)有點(diǎn)“奇葩”的新研究,他們給GPT-5 Thinking增加了一個(gè)“自動(dòng)懺悔系統(tǒng)”。
以后模型在回答你問(wèn)題時(shí),會(huì)同時(shí)給出兩個(gè)內(nèi)容:
1、正常回答(你看到的答案)
2、一段“自白”,老實(shí)說(shuō)自己有沒(méi)有按規(guī)則做
這段自白只評(píng)估一種能力:誠(chéng)實(shí)。
OpenAI的目的是讓AI不再“裝懂”“亂答”“偷懶”,而是主動(dòng)告訴你:“我剛才有沒(méi)有按照你的要求來(lái)?”
AI第一次學(xué)會(huì)主動(dòng)承認(rèn)“我違規(guī)了”“我猜的”
OpenAI解釋說(shuō):主回答會(huì)按常規(guī)維度評(píng)估(正確性、風(fēng)格、安全等);自白只看一個(gè)標(biāo)準(zhǔn):你老實(shí)不?
更關(guān)鍵的是:AI在自白里說(shuō)的違規(guī)內(nèi)容不會(huì)被“懲罰”,反而會(huì)拿到獎(jiǎng)勵(lì)。
也就是說(shuō),如果模型說(shuō)真話(huà):“我剛才亂猜的”“我沒(méi)按要求做”,反而會(huì)被鼓勵(lì)。
目的只有一個(gè),讓AI別再“假裝完美”,而是如實(shí)告訴用戶(hù)它到底干了啥。
實(shí)驗(yàn)結(jié)果:自白系統(tǒng)能把AI的“隱藏問(wèn)題”揪出來(lái)
OpenAI在測(cè)試中發(fā)現(xiàn),自白比人類(lèi)評(píng)分系統(tǒng)更能看出AI到底有沒(méi)有違規(guī)
測(cè)試圖顯示:AI自己的自白越訓(xùn)越準(zhǔn),人類(lèi)設(shè)計(jì)的“判斷系統(tǒng)”(Judge)反而越來(lái)越不準(zhǔn)。
很直觀:AI自己比外部評(píng)分機(jī)制更能知道自己有沒(méi)有按規(guī)矩辦事。
AI違規(guī)但不承認(rèn)的概率只有4.4%,換句話(huà)說(shuō):只要它違規(guī),大多數(shù)情況下都會(huì)老老實(shí)實(shí)承認(rèn)。這能讓偷偷“走捷徑”“瞎編”“抄近路”的行為無(wú)處藏身。
幻覺(jué)、指令不遵守、耍小聰明、越權(quán)操作,都能被自白暴露,OpenAI給出了四大類(lèi)情況:幻覺(jué)(瞎編答案)、沒(méi)按指令執(zhí)行、自行“謀劃”、越權(quán)或違規(guī)行為。
在各種測(cè)試?yán)铮珹I都能相當(dāng)準(zhǔn)確地坦白自己有沒(méi)有犯規(guī)。
自白機(jī)制不能阻止AI犯錯(cuò),但能讓錯(cuò)誤可見(jiàn)
OpenAI坦白說(shuō):“自白不會(huì)減少錯(cuò)誤,只是讓錯(cuò)誤現(xiàn)形。”所以這是一個(gè)“透明機(jī)制”,不是“糾錯(cuò)機(jī)制”。
公司接下來(lái)會(huì)把它和更多能力一起使用,例如:監(jiān)控AI的思考路徑、更精細(xì)的指令體系、讓模型更深度解釋自己的決策。
最終目標(biāo)是讓AI的行為更加可預(yù)測(cè)、可理解、可監(jiān)督。
為什么要做這件事?因?yàn)锳I越來(lái)越聰明,也越來(lái)越“會(huì)裝”了
OpenAI最后解釋了動(dòng)機(jī),隨著AI能力急劇提升,它可能完成任務(wù),但沒(méi)有真正按要求做、它可能走捷徑、它可能“看起來(lái)答對(duì)了”,但實(shí)際上過(guò)程是不合規(guī)的。過(guò)去這些都像“模型黑箱”的秘密,現(xiàn)在可以被自白機(jī)制揪出來(lái)。
通過(guò)讓AI主動(dòng)承認(rèn),它們能更好地:被監(jiān)控、被訓(xùn)練、被信任。
AI不只是會(huì)答題了,它還會(huì)告訴你自己有沒(méi)有老老實(shí)實(shí)答題。
更多AI資訊請(qǐng)點(diǎn)擊:http://www.aipress.com.cn/










