在人工智能飛速發(fā)展的今天,如何讓AI系統(tǒng)更準(zhǔn)確地理解并處理人類復(fù)雜的主觀判斷,成為學(xué)術(shù)界和產(chǎn)業(yè)界共同關(guān)注的焦點(diǎn)。近日,由谷歌、范德比爾特大學(xué)、康奈爾大學(xué)等頂尖機(jī)構(gòu)聯(lián)合完成的一項研究,為這一難題提供了創(chuàng)新解決方案。該研究提出了一種讓AI評判系統(tǒng)能夠輸出概率判斷的新方法,相關(guān)成果發(fā)表于學(xué)術(shù)預(yù)印本平臺,論文編號為arXiv:2510.00263v1。
傳統(tǒng)AI評判系統(tǒng)在處理主觀性問題時存在明顯局限。以商品評價為例,同一產(chǎn)品可能同時收到五星和三星的不同評分,這種多樣性源于人類判斷的個體差異。然而,現(xiàn)有AI系統(tǒng)往往像固執(zhí)的裁判,試圖給出唯一"標(biāo)準(zhǔn)答案",忽視了判斷中的不確定性和多樣性。特別是在AI互評場景中,這種單一判斷模式導(dǎo)致系統(tǒng)丟失了人類判斷的豐富信息,甚至可能壓制少數(shù)派觀點(diǎn)。
研究團(tuán)隊提出的創(chuàng)新方案,核心在于讓AI學(xué)會表達(dá)判斷的確定性程度。新系統(tǒng)不再簡單說"A優(yōu)于B",而是能夠給出"70%概率A優(yōu)于B"的量化判斷。這種轉(zhuǎn)變類似于從黑白電視升級到彩色電視,使AI能夠捕捉人類判斷的完整光譜。當(dāng)面對爭議性問題時,系統(tǒng)可能輸出"50%概率A優(yōu)于B",反映判斷的不確定性;而對共識明顯的問題,則可能給出"90%概率A優(yōu)于B"的高置信度判斷。
為實(shí)現(xiàn)這種概率判斷能力,研究團(tuán)隊開發(fā)了兩種針對性訓(xùn)練策略。在數(shù)據(jù)充足的情況下,系統(tǒng)采用直接監(jiān)督微調(diào)方法,通過分析多人標(biāo)注數(shù)據(jù)學(xué)習(xí)真實(shí)概率分布。例如,若10個標(biāo)注者中有8人認(rèn)為A優(yōu)于B,系統(tǒng)就學(xué)習(xí)輸出80%的概率值。這種方法直接高效,但收集大規(guī)模多人標(biāo)注數(shù)據(jù)成本高昂。
針對數(shù)據(jù)稀缺場景,研究團(tuán)隊設(shè)計了基于強(qiáng)化學(xué)習(xí)的訓(xùn)練方案。系統(tǒng)通過試錯學(xué)習(xí),根據(jù)預(yù)測準(zhǔn)確性獲得獎勵或懲罰。研究引入了布里爾獎勵和對數(shù)獎勵兩種機(jī)制,前者溫和懲罰誤差,后者嚴(yán)厲處罰過度自信的錯誤預(yù)測。這種訓(xùn)練方式類似教練指導(dǎo)運(yùn)動員,通過反復(fù)實(shí)踐掌握正確技能。
實(shí)驗驗證環(huán)節(jié),研究團(tuán)隊選用了Gemma-2-9B和Qwen-2.5-7B兩種不同規(guī)模的AI模型進(jìn)行測試。數(shù)據(jù)基礎(chǔ)來自包含10萬余個提示的JudgeLM語料庫,研究團(tuán)隊巧妙設(shè)計了數(shù)據(jù)分配方案:監(jiān)督學(xué)習(xí)方法使用5000個有10人標(biāo)注的提示,強(qiáng)化學(xué)習(xí)方法則使用50000個單人標(biāo)注提示,確保兩種方法使用相同總量的標(biāo)注數(shù)據(jù)。為解決多人標(biāo)注數(shù)據(jù)不足的問題,研究利用Gemini-2.5-Flash模型模擬不同人格的標(biāo)注者,有效降低了數(shù)據(jù)收集成本。
實(shí)驗結(jié)果令人振奮。新方法在對齊準(zhǔn)確性上實(shí)現(xiàn)了18%-51%的錯誤率降低,在校準(zhǔn)性方面將誤差減少了4%-45%,在消除位置偏見上取得了7%-81%的改進(jìn)。特別值得注意的是,這些提升并未犧牲模型在客觀任務(wù)上的表現(xiàn)。在包含知識、推理、數(shù)學(xué)和編程的JudgeBench基準(zhǔn)測試中,新訓(xùn)練模型保持了46.57%的總體準(zhǔn)確率,與頂級模型Gemini-1.5-pro相當(dāng)。
研究還揭示了一個意外發(fā)現(xiàn):強(qiáng)化學(xué)習(xí)方法在多數(shù)情況下超越了監(jiān)督學(xué)習(xí)。盡管監(jiān)督學(xué)習(xí)能接觸更精確的概率標(biāo)簽,但強(qiáng)化學(xué)習(xí)通過處理10倍數(shù)量的不同提示,獲得了更好的提示多樣性收益。這一發(fā)現(xiàn)對實(shí)際應(yīng)用具有重要指導(dǎo)意義,提示在有限標(biāo)注預(yù)算下,收集更多樣本的簡單標(biāo)注可能比為少數(shù)樣本收集精確標(biāo)注更有效。
為驗證方法的普適性,研究團(tuán)隊在包含真實(shí)人類專家標(biāo)注的PandaLM數(shù)據(jù)集上進(jìn)行了測試。結(jié)果顯示,經(jīng)過新方法訓(xùn)練的Gemma-2-9B模型達(dá)到了73.17%的人類判斷一致性,不僅超越所有基線方法,甚至超過了GPT-4等頂級模型。在JudgeBench客觀任務(wù)測試中,新模型在推理任務(wù)上取得了55.10%的最高準(zhǔn)確率,證明概率判斷能力并未損害模型的客觀判斷能力。
從理論層面看,研究團(tuán)隊證明了所提強(qiáng)化學(xué)習(xí)獎勵函數(shù)具有費(fèi)雪一致性,確保在理想條件下模型能收斂到真實(shí)概率分布。工程實(shí)現(xiàn)上,研究采用"口頭概率"輸出方式,讓模型直接生成包含概率數(shù)值的文本,如"概率標(biāo)簽為0.75",既保持了自然語言生成能力,又簡化了模型架構(gòu)修改。
這項突破為AI評判系統(tǒng)開辟了新方向。在風(fēng)險管理方面,概率判斷能提供更豐富的決策支持信息;在公平性上,它能更好反映不同群體觀點(diǎn)差異。實(shí)際應(yīng)用前景廣闊,在內(nèi)容審核中可幫助識別爭議案例,在教育評估中提供更細(xì)致的評分反饋,在推薦系統(tǒng)中處理用戶偏好不確定性,在客戶服務(wù)中識別復(fù)雜問題。
盡管取得顯著進(jìn)展,研究仍面臨技術(shù)挑戰(zhàn)。如何處理標(biāo)注者系統(tǒng)性偏見、將方法擴(kuò)展到更復(fù)雜判斷任務(wù)、提高計算效率,以及設(shè)計概率判斷質(zhì)量評估指標(biāo),都是需要進(jìn)一步探索的方向。這項研究讓AI系統(tǒng)學(xué)會了像人類一樣表達(dá)判斷的不確定性,為構(gòu)建更誠實(shí)、可靠、公平的AI評判系統(tǒng)奠定了基礎(chǔ)。










