国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级

ITBear旗下自媒體矩陣:

谷歌領(lǐng)銜突破:AI學(xué)會表達(dá)判斷確定性,有效減少系統(tǒng)偏見難題

   時間:2025-11-04 03:21:16 來源:互聯(lián)網(wǎng)編輯:快訊 IP:北京 發(fā)表評論無障礙通道
 

在人工智能飛速發(fā)展的今天,如何讓AI系統(tǒng)更準(zhǔn)確地理解并處理人類復(fù)雜的主觀判斷,成為學(xué)術(shù)界和產(chǎn)業(yè)界共同關(guān)注的焦點(diǎn)。近日,由谷歌、范德比爾特大學(xué)、康奈爾大學(xué)等頂尖機(jī)構(gòu)聯(lián)合完成的一項研究,為這一難題提供了創(chuàng)新解決方案。該研究提出了一種讓AI評判系統(tǒng)能夠輸出概率判斷的新方法,相關(guān)成果發(fā)表于學(xué)術(shù)預(yù)印本平臺,論文編號為arXiv:2510.00263v1。

傳統(tǒng)AI評判系統(tǒng)在處理主觀性問題時存在明顯局限。以商品評價為例,同一產(chǎn)品可能同時收到五星和三星的不同評分,這種多樣性源于人類判斷的個體差異。然而,現(xiàn)有AI系統(tǒng)往往像固執(zhí)的裁判,試圖給出唯一"標(biāo)準(zhǔn)答案",忽視了判斷中的不確定性和多樣性。特別是在AI互評場景中,這種單一判斷模式導(dǎo)致系統(tǒng)丟失了人類判斷的豐富信息,甚至可能壓制少數(shù)派觀點(diǎn)。

研究團(tuán)隊提出的創(chuàng)新方案,核心在于讓AI學(xué)會表達(dá)判斷的確定性程度。新系統(tǒng)不再簡單說"A優(yōu)于B",而是能夠給出"70%概率A優(yōu)于B"的量化判斷。這種轉(zhuǎn)變類似于從黑白電視升級到彩色電視,使AI能夠捕捉人類判斷的完整光譜。當(dāng)面對爭議性問題時,系統(tǒng)可能輸出"50%概率A優(yōu)于B",反映判斷的不確定性;而對共識明顯的問題,則可能給出"90%概率A優(yōu)于B"的高置信度判斷。

為實(shí)現(xiàn)這種概率判斷能力,研究團(tuán)隊開發(fā)了兩種針對性訓(xùn)練策略。在數(shù)據(jù)充足的情況下,系統(tǒng)采用直接監(jiān)督微調(diào)方法,通過分析多人標(biāo)注數(shù)據(jù)學(xué)習(xí)真實(shí)概率分布。例如,若10個標(biāo)注者中有8人認(rèn)為A優(yōu)于B,系統(tǒng)就學(xué)習(xí)輸出80%的概率值。這種方法直接高效,但收集大規(guī)模多人標(biāo)注數(shù)據(jù)成本高昂。

針對數(shù)據(jù)稀缺場景,研究團(tuán)隊設(shè)計了基于強(qiáng)化學(xué)習(xí)的訓(xùn)練方案。系統(tǒng)通過試錯學(xué)習(xí),根據(jù)預(yù)測準(zhǔn)確性獲得獎勵或懲罰。研究引入了布里爾獎勵和對數(shù)獎勵兩種機(jī)制,前者溫和懲罰誤差,后者嚴(yán)厲處罰過度自信的錯誤預(yù)測。這種訓(xùn)練方式類似教練指導(dǎo)運(yùn)動員,通過反復(fù)實(shí)踐掌握正確技能。

實(shí)驗驗證環(huán)節(jié),研究團(tuán)隊選用了Gemma-2-9B和Qwen-2.5-7B兩種不同規(guī)模的AI模型進(jìn)行測試。數(shù)據(jù)基礎(chǔ)來自包含10萬余個提示的JudgeLM語料庫,研究團(tuán)隊巧妙設(shè)計了數(shù)據(jù)分配方案:監(jiān)督學(xué)習(xí)方法使用5000個有10人標(biāo)注的提示,強(qiáng)化學(xué)習(xí)方法則使用50000個單人標(biāo)注提示,確保兩種方法使用相同總量的標(biāo)注數(shù)據(jù)。為解決多人標(biāo)注數(shù)據(jù)不足的問題,研究利用Gemini-2.5-Flash模型模擬不同人格的標(biāo)注者,有效降低了數(shù)據(jù)收集成本。

實(shí)驗結(jié)果令人振奮。新方法在對齊準(zhǔn)確性上實(shí)現(xiàn)了18%-51%的錯誤率降低,在校準(zhǔn)性方面將誤差減少了4%-45%,在消除位置偏見上取得了7%-81%的改進(jìn)。特別值得注意的是,這些提升并未犧牲模型在客觀任務(wù)上的表現(xiàn)。在包含知識、推理、數(shù)學(xué)和編程的JudgeBench基準(zhǔn)測試中,新訓(xùn)練模型保持了46.57%的總體準(zhǔn)確率,與頂級模型Gemini-1.5-pro相當(dāng)。

研究還揭示了一個意外發(fā)現(xiàn):強(qiáng)化學(xué)習(xí)方法在多數(shù)情況下超越了監(jiān)督學(xué)習(xí)。盡管監(jiān)督學(xué)習(xí)能接觸更精確的概率標(biāo)簽,但強(qiáng)化學(xué)習(xí)通過處理10倍數(shù)量的不同提示,獲得了更好的提示多樣性收益。這一發(fā)現(xiàn)對實(shí)際應(yīng)用具有重要指導(dǎo)意義,提示在有限標(biāo)注預(yù)算下,收集更多樣本的簡單標(biāo)注可能比為少數(shù)樣本收集精確標(biāo)注更有效。

為驗證方法的普適性,研究團(tuán)隊在包含真實(shí)人類專家標(biāo)注的PandaLM數(shù)據(jù)集上進(jìn)行了測試。結(jié)果顯示,經(jīng)過新方法訓(xùn)練的Gemma-2-9B模型達(dá)到了73.17%的人類判斷一致性,不僅超越所有基線方法,甚至超過了GPT-4等頂級模型。在JudgeBench客觀任務(wù)測試中,新模型在推理任務(wù)上取得了55.10%的最高準(zhǔn)確率,證明概率判斷能力并未損害模型的客觀判斷能力。

從理論層面看,研究團(tuán)隊證明了所提強(qiáng)化學(xué)習(xí)獎勵函數(shù)具有費(fèi)雪一致性,確保在理想條件下模型能收斂到真實(shí)概率分布。工程實(shí)現(xiàn)上,研究采用"口頭概率"輸出方式,讓模型直接生成包含概率數(shù)值的文本,如"概率標(biāo)簽為0.75",既保持了自然語言生成能力,又簡化了模型架構(gòu)修改。

這項突破為AI評判系統(tǒng)開辟了新方向。在風(fēng)險管理方面,概率判斷能提供更豐富的決策支持信息;在公平性上,它能更好反映不同群體觀點(diǎn)差異。實(shí)際應(yīng)用前景廣闊,在內(nèi)容審核中可幫助識別爭議案例,在教育評估中提供更細(xì)致的評分反饋,在推薦系統(tǒng)中處理用戶偏好不確定性,在客戶服務(wù)中識別復(fù)雜問題。

盡管取得顯著進(jìn)展,研究仍面臨技術(shù)挑戰(zhàn)。如何處理標(biāo)注者系統(tǒng)性偏見、將方法擴(kuò)展到更復(fù)雜判斷任務(wù)、提高計算效率,以及設(shè)計概率判斷質(zhì)量評估指標(biāo),都是需要進(jìn)一步探索的方向。這項研究讓AI系統(tǒng)學(xué)會了像人類一樣表達(dá)判斷的不確定性,為構(gòu)建更誠實(shí)、可靠、公平的AI評判系統(tǒng)奠定了基礎(chǔ)。

 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭議稿件處理  |  English Version
 
国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级
欧美本精品男人aⅴ天堂| 中文幕一区二区三区久久蜜桃| 91亚洲资源网| 国产精品久久三| 不卡的电影网站| 日韩理论片网站| 在线观看日韩一区| 国产日韩av一区二区| 99久久久免费精品国产一区二区 | 久久精品亚洲国产奇米99| 精品亚洲成av人在线观看| 久久精品视频网| 99久久婷婷国产| 日韩精品1区2区3区| 26uuu亚洲综合色| 欧美日韩一区不卡| 日本午夜精品视频在线观看 | 欧美另类久久久品| 国产精品一区三区| 无吗不卡中文字幕| 国产欧美日韩三级| 日韩一级二级三级| 久久99精品久久久久久久久久久久| 欧美精品1区2区| 91污在线观看| 国产精品一区二区果冻传媒| 日韩国产在线一| 国产精品欧美一级免费| 精品久久久久久久久久久院品网| 色噜噜夜夜夜综合网| 盗摄精品av一区二区三区| 国产精品一品视频| 国产在线精品不卡| 国产精品香蕉一区二区三区| 中文字幕在线观看一区| 国产精品免费观看视频| 国产精品色在线观看| 日本一区二区三区高清不卡| 日本一区二区三区在线不卡| 国产精品久久久一本精品| 中文字幕乱码日本亚洲一区二区 | 国产三级精品三级| 国产女同性恋一区二区| 亚洲国产精品v| 午夜视频一区在线观看| 美女一区二区在线观看| 成人高清免费观看| 欧美日韩在线不卡| 精品久久久久久亚洲综合网| 中文字幕第一区| 狂野欧美性猛交blacked| 日韩一区二区三区视频| 日韩精品高清不卡| 成人av午夜影院| 国产亚洲欧美日韩在线一区| 免费美女久久99| 欧美日产国产精品| 亚洲激情自拍视频| 91麻豆国产香蕉久久精品| 亚洲人吸女人奶水| 日本伦理一区二区| 五月天激情小说综合| 欧美精品v日韩精品v韩国精品v| 亚洲乱码国产乱码精品精可以看| 国产99精品国产| 国产精品国产三级国产aⅴ入口| 天天色天天操综合| 欧美成人一区二区三区在线观看| 激情综合一区二区三区| 国产欧美视频一区二区| 色综合夜色一区| 首页国产欧美久久| 久久久久久久网| 在线免费观看日韩欧美| 男人的天堂久久精品| 精品国产乱码久久久久久久久| 国产一区二区不卡在线| 国产精品女同互慰在线看| 99国产精品99久久久久久| 奇米精品一区二区三区在线观看一 | 精品日产卡一卡二卡麻豆| 成人动漫精品一区二区| 亚洲国产成人av好男人在线观看| 日韩精品一区二区在线| 风间由美一区二区av101| 日韩成人免费看| 亚洲女性喷水在线观看一区| 26uuu亚洲| 欧美区一区二区三区| 欧美在线高清视频| 91在线精品秘密一区二区| 国产精品影音先锋| 韩国精品免费视频| 日av在线不卡| 裸体健美xxxx欧美裸体表演| 亚洲精品中文在线| 亚洲精品水蜜桃| 亚洲精选视频在线| 一区二区三区波多野结衣在线观看 | 国产精一区二区三区| 九九热在线视频观看这里只有精品| 亚洲日本在线a| 亚洲视频免费在线观看| 亚洲成人资源在线| 亚洲免费在线视频一区 二区| 国产片一区二区| 中文字幕国产一区| 亚洲欧美日韩国产综合在线| 亚洲欧美自拍偷拍色图| 亚洲自拍偷拍九九九| 亚洲制服丝袜一区| 久久国产精品99久久久久久老狼| 精品一二三四在线| 欧美综合色免费| 中文字幕一区二区5566日韩| 亚洲国产精品尤物yw在线观看| 国产综合成人久久大片91| 在线日韩av片| 亚洲尤物在线视频观看| 91女厕偷拍女厕偷拍高清| 国产三级精品视频| 岛国一区二区在线观看| 精品动漫一区二区三区在线观看| 国产精品久久看| 亚洲午夜精品网| 激情久久五月天| 91网页版在线| 日韩欧美三级在线| 亚洲少妇屁股交4| 美女一区二区在线观看| 91在线精品一区二区| 精品福利一区二区三区| 亚洲视频综合在线| 亚洲一区免费视频| 卡一卡二国产精品 | 日韩av一区二区在线影视| 亚洲一卡二卡三卡四卡五卡| 老司机免费视频一区二区| 91免费版在线| 国产精品天天看| 精品一区二区久久| 日韩视频国产视频| 亚洲国产美国国产综合一区二区| 国产69精品久久久久毛片| 欧美va亚洲va在线观看蝴蝶网| 一区二区三区日本| 色综合久久久久| 国产亚洲欧洲一区高清在线观看| 日本aⅴ精品一区二区三区| 欧美制服丝袜第一页| 亚洲精品高清在线| 99精品1区2区| 亚洲乱码国产乱码精品精小说 | 成人h动漫精品一区二区| 日本一区二区三区四区| 成人动漫视频在线| 亚洲九九爱视频| 成人精品视频.| 久久色中文字幕| 丝袜亚洲精品中文字幕一区| 91精品婷婷国产综合久久性色| 国产精品区一区二区三| 在线观看国产日韩| 图片区日韩欧美亚洲| 4438成人网| 成人h精品动漫一区二区三区| 欧美videossexotv100| 免费成人在线播放| 亚洲综合男人的天堂| 91麻豆国产在线观看| 久久草av在线| 亚洲一区av在线| 国产精品美女久久久久久久久| 日本黄色一区二区| 国产精品888| 青椒成人免费视频| 久久网这里都是精品| av在线一区二区三区| 国产精品综合二区| 精品一区二区在线看| 国产欧美综合在线观看第十页| 91精品国产综合久久福利 | 亚洲乱码国产乱码精品精可以看 | 97se亚洲国产综合自在线不卡| 日韩国产欧美一区二区三区| 国产精品久久久久久久久免费相片| 欧美精品第1页| 91精品国产黑色紧身裤美女| 欧美日韩在线播放三区四区| 972aa.com艺术欧美| 国产一二三精品| 成人va在线观看| 日本高清成人免费播放| 91免费版在线| 欧美一区二区精美| 91在线播放网址| 欧美精品xxxxbbbb| 久久日韩粉嫩一区二区三区| 欧美二区三区的天堂| 久久精品一区蜜桃臀影院|