滾動資訊

當(dāng)前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

谷歌領(lǐng)銜突破：AI學(xué)會表達(dá)判斷確定性，有效減少系統(tǒng)偏見難題

時間：2025-11-04 03:21:16 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

在人工智能飛速發(fā)展的今天，如何讓AI系統(tǒng)更準(zhǔn)確地理解并處理人類復(fù)雜的主觀判斷，成為學(xué)術(shù)界和產(chǎn)業(yè)界共同關(guān)注的焦點(diǎn)。近日，由谷歌、范德比爾特大學(xué)、康奈爾大學(xué)等頂尖機(jī)構(gòu)聯(lián)合完成的一項研究，為這一難題提供了創(chuàng)新解決方案。該研究提出了一種讓AI評判系統(tǒng)能夠輸出概率判斷的新方法，相關(guān)成果發(fā)表于學(xué)術(shù)預(yù)印本平臺，論文編號為arXiv:2510.00263v1。

傳統(tǒng)AI評判系統(tǒng)在處理主觀性問題時存在明顯局限。以商品評價為例，同一產(chǎn)品可能同時收到五星和三星的不同評分，這種多樣性源于人類判斷的個體差異。然而，現(xiàn)有AI系統(tǒng)往往像固執(zhí)的裁判，試圖給出唯一"標(biāo)準(zhǔn)答案"，忽視了判斷中的不確定性和多樣性。特別是在AI互評場景中，這種單一判斷模式導(dǎo)致系統(tǒng)丟失了人類判斷的豐富信息，甚至可能壓制少數(shù)派觀點(diǎn)。

研究團(tuán)隊提出的創(chuàng)新方案，核心在于讓AI學(xué)會表達(dá)判斷的確定性程度。新系統(tǒng)不再簡單說"A優(yōu)于B"，而是能夠給出"70%概率A優(yōu)于B"的量化判斷。這種轉(zhuǎn)變類似于從黑白電視升級到彩色電視，使AI能夠捕捉人類判斷的完整光譜。當(dāng)面對爭議性問題時，系統(tǒng)可能輸出"50%概率A優(yōu)于B"，反映判斷的不確定性；而對共識明顯的問題，則可能給出"90%概率A優(yōu)于B"的高置信度判斷。

為實(shí)現(xiàn)這種概率判斷能力，研究團(tuán)隊開發(fā)了兩種針對性訓(xùn)練策略。在數(shù)據(jù)充足的情況下，系統(tǒng)采用直接監(jiān)督微調(diào)方法，通過分析多人標(biāo)注數(shù)據(jù)學(xué)習(xí)真實(shí)概率分布。例如，若10個標(biāo)注者中有8人認(rèn)為A優(yōu)于B，系統(tǒng)就學(xué)習(xí)輸出80%的概率值。這種方法直接高效，但收集大規(guī)模多人標(biāo)注數(shù)據(jù)成本高昂。

針對數(shù)據(jù)稀缺場景，研究團(tuán)隊設(shè)計了基于強(qiáng)化學(xué)習(xí)的訓(xùn)練方案。系統(tǒng)通過試錯學(xué)習(xí)，根據(jù)預(yù)測準(zhǔn)確性獲得獎勵或懲罰。研究引入了布里爾獎勵和對數(shù)獎勵兩種機(jī)制，前者溫和懲罰誤差，后者嚴(yán)厲處罰過度自信的錯誤預(yù)測。這種訓(xùn)練方式類似教練指導(dǎo)運(yùn)動員，通過反復(fù)實(shí)踐掌握正確技能。

實(shí)驗驗證環(huán)節(jié)，研究團(tuán)隊選用了Gemma-2-9B和Qwen-2.5-7B兩種不同規(guī)模的AI模型進(jìn)行測試。數(shù)據(jù)基礎(chǔ)來自包含10萬余個提示的JudgeLM語料庫，研究團(tuán)隊巧妙設(shè)計了數(shù)據(jù)分配方案：監(jiān)督學(xué)習(xí)方法使用5000個有10人標(biāo)注的提示，強(qiáng)化學(xué)習(xí)方法則使用50000個單人標(biāo)注提示，確保兩種方法使用相同總量的標(biāo)注數(shù)據(jù)。為解決多人標(biāo)注數(shù)據(jù)不足的問題，研究利用Gemini-2.5-Flash模型模擬不同人格的標(biāo)注者，有效降低了數(shù)據(jù)收集成本。

實(shí)驗結(jié)果令人振奮。新方法在對齊準(zhǔn)確性上實(shí)現(xiàn)了18%-51%的錯誤率降低，在校準(zhǔn)性方面將誤差減少了4%-45%，在消除位置偏見上取得了7%-81%的改進(jìn)。特別值得注意的是，這些提升并未犧牲模型在客觀任務(wù)上的表現(xiàn)。在包含知識、推理、數(shù)學(xué)和編程的JudgeBench基準(zhǔn)測試中，新訓(xùn)練模型保持了46.57%的總體準(zhǔn)確率，與頂級模型Gemini-1.5-pro相當(dāng)。

研究還揭示了一個意外發(fā)現(xiàn)：強(qiáng)化學(xué)習(xí)方法在多數(shù)情況下超越了監(jiān)督學(xué)習(xí)。盡管監(jiān)督學(xué)習(xí)能接觸更精確的概率標(biāo)簽，但強(qiáng)化學(xué)習(xí)通過處理10倍數(shù)量的不同提示，獲得了更好的提示多樣性收益。這一發(fā)現(xiàn)對實(shí)際應(yīng)用具有重要指導(dǎo)意義，提示在有限標(biāo)注預(yù)算下，收集更多樣本的簡單標(biāo)注可能比為少數(shù)樣本收集精確標(biāo)注更有效。

為驗證方法的普適性，研究團(tuán)隊在包含真實(shí)人類專家標(biāo)注的PandaLM數(shù)據(jù)集上進(jìn)行了測試。結(jié)果顯示，經(jīng)過新方法訓(xùn)練的Gemma-2-9B模型達(dá)到了73.17%的人類判斷一致性，不僅超越所有基線方法，甚至超過了GPT-4等頂級模型。在JudgeBench客觀任務(wù)測試中，新模型在推理任務(wù)上取得了55.10%的最高準(zhǔn)確率，證明概率判斷能力并未損害模型的客觀判斷能力。

從理論層面看，研究團(tuán)隊證明了所提強(qiáng)化學(xué)習(xí)獎勵函數(shù)具有費(fèi)雪一致性，確保在理想條件下模型能收斂到真實(shí)概率分布。工程實(shí)現(xiàn)上，研究采用"口頭概率"輸出方式，讓模型直接生成包含概率數(shù)值的文本，如"概率標(biāo)簽為0.75"，既保持了自然語言生成能力，又簡化了模型架構(gòu)修改。

這項突破為AI評判系統(tǒng)開辟了新方向。在風(fēng)險管理方面，概率判斷能提供更豐富的決策支持信息；在公平性上，它能更好反映不同群體觀點(diǎn)差異。實(shí)際應(yīng)用前景廣闊，在內(nèi)容審核中可幫助識別爭議案例，在教育評估中提供更細(xì)致的評分反饋，在推薦系統(tǒng)中處理用戶偏好不確定性，在客戶服務(wù)中識別復(fù)雜問題。

盡管取得顯著進(jìn)展，研究仍面臨技術(shù)挑戰(zhàn)。如何處理標(biāo)注者系統(tǒng)性偏見、將方法擴(kuò)展到更復(fù)雜判斷任務(wù)、提高計算效率，以及設(shè)計概率判斷質(zhì)量評估指標(biāo)，都是需要進(jìn)一步探索的方向。這項研究讓AI系統(tǒng)學(xué)會了像人類一樣表達(dá)判斷的不確定性，為構(gòu)建更誠實(shí)、可靠、公平的AI評判系統(tǒng)奠定了基礎(chǔ)。

11-04

谷歌團(tuán)隊突破：AI借力海量教程視頻，實(shí)現(xiàn)電腦操作自主“偷師”

11-04

主logo更新后谷歌再行動：相冊與地圖圖標(biāo)換新顏，融入漸變色設(shè)計

11-04

亞馬遜與OpenAI達(dá)成380億美元合作：OpenAI部署算力，亞馬遜AWS增長迎新機(jī)遇

11-04

蘋果2026年新品與系統(tǒng)更新計劃曝光 AI國行版或隨iOS 26.4亮相并升級Siri

11-04

DeepSeek突發(fā)故障引網(wǎng)友熱議，8月也曾“罷工”你受影響了嗎？

11-04

?黃仁勛談中美科技：美國低估中國潛力，AI領(lǐng)域差距僅在“納秒”間?

11-04

今年前三季度我國機(jī)器人產(chǎn)業(yè)“加速跑”：營收大增產(chǎn)量技術(shù)雙突破

11-04

谷歌母公司Alphabet再赴歐洲債券市場，擬籌超30億歐元力推AI與云基建

11-04

OpenAI與亞馬遜AWS達(dá)成380億美元合作共筑AI算力新基石

11-04

科大訊飛“AI+文旅”創(chuàng)新升級，以科技之力開啟文旅深度體驗新篇章

10月26日，2025科大訊飛全球1024開發(fā)者節(jié)期間，科大訊飛“AI+文旅”主題產(chǎn)品升級發(fā)布會在線上舉行，憑創(chuàng)新技術(shù)將文旅從“到此一游”推向“深度體驗”新階段。數(shù)字人技術(shù)上，科大訊飛讓文旅IP“活”起來：訊…

11-04

360開源FG-CLIP2模型：突破細(xì)粒度識別，為AI實(shí)用化添磚加瓦

其最新開源的FG-CLIP2模型，憑借對圖像細(xì)節(jié)的極致理解，在多項測試中超越谷歌、Meta同類產(chǎn)品，成為全球最強(qiáng)的視覺語言模型。中文benchmark綜合排名 FG-CLIP2的核心突破在于解決了“細(xì)粒度識…

11-04

上海首例AI大模型著作權(quán)侵權(quán)案落槌，用戶侵權(quán)被判賠5萬元

平臺向用戶盡到了合理告知義務(wù)，設(shè)置了投訴舉報機(jī)制和發(fā)布審核機(jī)制，在收到起訴狀后及時下架了全部美杜莎LoRA模型，并更新平臺審核機(jī)制中的篩選關(guān)鍵詞，在接到原告通知后，及時通知了海外AI平臺，主觀上并無過錯，客觀…

11-04

360集團(tuán)開源FG-CLIP2模型：以“高精度洞察”賦能AI實(shí)用化新突破

同時，該模型優(yōu)化了雙語協(xié)同策略，從底層解決了中英文理解不平衡的難題，實(shí)現(xiàn)了真正的雙語原生支持。從上述創(chuàng)新可以看出，該模型像是擁有一臺“高精度光學(xué)顯微鏡”，使其能夠“洞察入微”，成功攻克了CLIP模型長期存在…

11-04

馬斯克預(yù)測：五至六年AI主導(dǎo)時代將至未來或告別傳統(tǒng)設(shè)備與程序

美國富豪馬斯克接受播客節(jié)目訪問時預(yù)計，人工智能主導(dǎo)時代的黎明距離現(xiàn)在僅剩五至六年，又指未來不會有傳統(tǒng)作業(yè)系統(tǒng)、手機(jī)或應(yīng)用程式，只有一個裝置和語音，大多數(shù)人消費(fèi)內(nèi)容將完全由人工智能生成。他認(rèn)為人類正從屏幕走…

11-04

點(diǎn)擊查看更多 +

全站最新

廣汽埃安AION i60開啟預(yù)售增程純電雙選擇 11.98萬起售

2026款廣汽本田繽智煥新登場智能配置升級限時優(yōu)惠價8.98萬起

蘋果2026財年首季營收或創(chuàng)新高有望突破1400億美元大關(guān)

2025百度十大科技發(fā)明亮相：多模態(tài)模型、高效容錯技術(shù)等引領(lǐng)創(chuàng)新

2025年合資新能源“起勢”：以中國定制破局，能否重塑市場新格局？

重慶小米汽車后備箱集市獲雷軍認(rèn)可，車主以車為媒共繪科技生活新畫卷

熱門內(nèi)容

本欄最新

2025年合資新能源“起勢”：以中國定制破局，能否重塑市場新格局？

從接娃到自駕游：騰勢N8L用全維科技，讓全家出行每個痛點(diǎn)都有解

比亞迪騰勢N8L大六座SUV來襲，安全豪華科技兼?zhèn)洌页鲂行逻x擇

極氪7X煥新登場，全系標(biāo)配豪華科技，重塑家庭豪華SUV新標(biāo)桿

騰勢N8L上市：29.98萬起享超安全大六座，科技豪華定義家庭出行新體驗

從性能狂潮到舒適革命，榮威M7 DMH憑何成為新晉奶爸的智慧之選？

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级

谷歌領(lǐng)銜突破：AI學(xué)會表達(dá)判斷確定性，有效減少系統(tǒng)偏見難題