滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 人工智能 > 正文內(nèi)容

OpenAI發(fā)明「AI懺悔機(jī)制」，讓GPT-5坦白從寬

時(shí)間：2025-12-04 12:33:43 來(lái)源：鞭牛士編輯：快訊 IP：北京 發(fā)表評(píng)論無(wú)障礙通道

OpenAI 剛剛公開(kāi)了一項(xiàng)有點(diǎn)“奇葩”的新研究，他們給GPT-5 Thinking增加了一個(gè)“自動(dòng)懺悔系統(tǒng)”。

以后模型在回答你問(wèn)題時(shí)，會(huì)同時(shí)給出兩個(gè)內(nèi)容：

1、正常回答（你看到的答案）

2、一段“自白”，老實(shí)說(shuō)自己有沒(méi)有按規(guī)則做

這段自白只評(píng)估一種能力：誠(chéng)實(shí)。

OpenAI的目的是讓AI不再“裝懂”“亂答”“偷懶”，而是主動(dòng)告訴你：“我剛才有沒(méi)有按照你的要求來(lái)？”

AI第一次學(xué)會(huì)主動(dòng)承認(rèn)“我違規(guī)了”“我猜的”

OpenAI解釋說(shuō)：主回答會(huì)按常規(guī)維度評(píng)估（正確性、風(fēng)格、安全等）；自白只看一個(gè)標(biāo)準(zhǔn)：你老實(shí)不？

更關(guān)鍵的是：AI在自白里說(shuō)的違規(guī)內(nèi)容不會(huì)被“懲罰”，反而會(huì)拿到獎(jiǎng)勵(lì)。

也就是說(shuō)，如果模型說(shuō)真話(huà)：“我剛才亂猜的”“我沒(méi)按要求做”，反而會(huì)被鼓勵(lì)。

目的只有一個(gè)，讓AI別再“假裝完美”，而是如實(shí)告訴用戶(hù)它到底干了啥。

實(shí)驗(yàn)結(jié)果：自白系統(tǒng)能把AI的“隱藏問(wèn)題”揪出來(lái)

OpenAI在測(cè)試中發(fā)現(xiàn)，自白比人類(lèi)評(píng)分系統(tǒng)更能看出AI到底有沒(méi)有違規(guī)

測(cè)試圖顯示：AI自己的自白越訓(xùn)越準(zhǔn)，人類(lèi)設(shè)計(jì)的“判斷系統(tǒng)”（Judge）反而越來(lái)越不準(zhǔn)。

很直觀：AI自己比外部評(píng)分機(jī)制更能知道自己有沒(méi)有按規(guī)矩辦事。

AI違規(guī)但不承認(rèn)的概率只有4.4%，換句話(huà)說(shuō)：只要它違規(guī)，大多數(shù)情況下都會(huì)老老實(shí)實(shí)承認(rèn)。這能讓偷偷“走捷徑”“瞎編”“抄近路”的行為無(wú)處藏身。

幻覺(jué)、指令不遵守、耍小聰明、越權(quán)操作，都能被自白暴露，OpenAI給出了四大類(lèi)情況：幻覺(jué)（瞎編答案）、沒(méi)按指令執(zhí)行、自行“謀劃”、越權(quán)或違規(guī)行為。

在各種測(cè)試?yán)铮珹I都能相當(dāng)準(zhǔn)確地坦白自己有沒(méi)有犯規(guī)。

自白機(jī)制不能阻止AI犯錯(cuò)，但能讓錯(cuò)誤可見(jiàn)

OpenAI坦白說(shuō)：“自白不會(huì)減少錯(cuò)誤，只是讓錯(cuò)誤現(xiàn)形。”所以這是一個(gè)“透明機(jī)制”，不是“糾錯(cuò)機(jī)制”。

公司接下來(lái)會(huì)把它和更多能力一起使用，例如：監(jiān)控AI的思考路徑、更精細(xì)的指令體系、讓模型更深度解釋自己的決策。

最終目標(biāo)是讓AI的行為更加可預(yù)測(cè)、可理解、可監(jiān)督。

為什么要做這件事？因?yàn)锳I越來(lái)越聰明，也越來(lái)越“會(huì)裝”了

OpenAI最后解釋了動(dòng)機(jī)，隨著AI能力急劇提升，它可能完成任務(wù)，但沒(méi)有真正按要求做、它可能走捷徑、它可能“看起來(lái)答對(duì)了”，但實(shí)際上過(guò)程是不合規(guī)的。過(guò)去這些都像“模型黑箱”的秘密，現(xiàn)在可以被自白機(jī)制揪出來(lái)。

通過(guò)讓AI主動(dòng)承認(rèn)，它們能更好地：被監(jiān)控、被訓(xùn)練、被信任。

AI不只是會(huì)答題了，它還會(huì)告訴你自己有沒(méi)有老老實(shí)實(shí)答題。

更多AI資訊請(qǐng)點(diǎn)擊:http://www.aipress.com.cn/

更多>同類(lèi)資訊

Anthropic CEO：警惕激進(jìn)擴(kuò)張！

12-04

又買(mǎi)一家：OpenAI將收購(gòu)Neptune，強(qiáng)化AI模型訓(xùn)練監(jiān)控能力

12-04

豆包手機(jī)助手回應(yīng)“未經(jīng)授權(quán)獲取系統(tǒng)權(quán)限”等問(wèn)題

12-04

黃仁勛預(yù)測(cè)：未來(lái)兩三年90%新知識(shí)將由AI合成

12-04

靈光閃應(yīng)用升級(jí) 不會(huì)代碼也能用AI生成小游戲

12-04

商湯科技王曉剛?cè)未髸詸C(jī)器人董事長(zhǎng)，12月18日將攜多項(xiàng)技術(shù)產(chǎn)品亮相

12-04

優(yōu)必選注冊(cè)資本增至4.7億智能科技領(lǐng)域發(fā)展再添新動(dòng)力

12-04

具身智能：新周期開(kāi)啟，入局、普及與進(jìn)化浪潮正涌來(lái)

12-04

2026節(jié)點(diǎn)增長(zhǎng)大會(huì)啟幕！2025年度榜單評(píng)選邀您共尋增長(zhǎng)新路徑

12-04

豆包圖像創(chuàng)作模型Seedream 4.5公測(cè)，多場(chǎng)景應(yīng)用助力創(chuàng)意高效落地

12-04

豆包手機(jī)助手就微信登錄異常等爭(zhēng)議回應(yīng)：權(quán)限調(diào)用透明且用戶(hù)全程可控

12-04

硅谷“精靈單車(chē)”來(lái)襲：自動(dòng)駕駛加持，外賣(mài)配送或迎新變革

12-04

OpenAI收購(gòu)Neptune，深度整合工具強(qiáng)化AI模型訓(xùn)練洞察力

12-04

OpenAI達(dá)成收購(gòu)協(xié)議：將納入專(zhuān)注AI模型監(jiān)控調(diào)試工具研發(fā)的初創(chuàng)企業(yè)Neptune

12-04

OpenAI收購(gòu)Neptune，深度集成工具助力AI模型訓(xùn)練監(jiān)控升級(jí)

12-04

點(diǎn)擊查看更多 +

全站最新

從3000多家門(mén)店到徹底退出，Etam等歐洲服飾品牌緣何折戟中國(guó)市場(chǎng)？

小米汽車(chē)交付量破50萬(wàn)大關(guān)，可穿戴設(shè)備12月更新計(jì)劃亮點(diǎn)搶先看

理想汽車(chē)跨界發(fā)布AI眼鏡Livis！1999元起售車(chē)控聯(lián)動(dòng)打造智能新體驗(yàn)

理想AI眼鏡Livis亮相：輕至36克拍照快且功能豐富開(kāi)啟智能新體驗(yàn)

一加Ace 6T開(kāi)箱體驗(yàn)：高性能芯片搭配超長(zhǎng)續(xù)航，質(zhì)感與實(shí)力并存

一加 Ace 6T重磅登場(chǎng)：165幀游戲暢玩 8300mAh超長(zhǎng)續(xù)航首銷(xiāo)2399元起

熱門(mén)內(nèi)容

本欄最新

理想汽車(chē)跨界發(fā)布AI眼鏡Livis！1999元起售車(chē)控聯(lián)動(dòng)打造智能新體驗(yàn)

VLA大模型首搭魏牌全新藍(lán)山長(zhǎng)城汽車(chē)輔助駕駛開(kāi)啟智能進(jìn)階新篇

第三代藍(lán)電E5 PLUS：12萬(wàn)級(jí)超值之選，續(xù)航四驅(qū)場(chǎng)景智能全拿捏

理想首款A(yù)I眼鏡Livis深度解析：從功能到設(shè)計(jì)，一文全覽亮點(diǎn)

理想AI眼鏡Livis登場(chǎng)：以車(chē)為錨點(diǎn)，開(kāi)啟全天候智能交互新篇

歐拉5預(yù)售開(kāi)啟，12.88萬(wàn)享激光雷達(dá)，智能座艙與舒適空間全都有

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類(lèi)資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶(hù)提供內(nèi)容聽(tīng)讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级

OpenAI發(fā)明「AI懺悔機(jī)制」，讓GPT-5坦白從寬