滾動(dòng)資訊

當(dāng)前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

東京大學(xué)新研究：AI生成基準(zhǔn)測(cè)試，開源多模態(tài)模型短板顯露

時(shí)間：2025-12-19 00:24:45 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評(píng)論無障礙通道

東京大學(xué)研究團(tuán)隊(duì)近期在人工智能領(lǐng)域取得突破性進(jìn)展，針對(duì)日語多模態(tài)理解任務(wù)開發(fā)出全新評(píng)估基準(zhǔn)JMMMU-Pro，并創(chuàng)新性地提出Vibe基準(zhǔn)構(gòu)建法。這項(xiàng)研究揭示了當(dāng)前開源AI模型在處理圖文混合內(nèi)容時(shí)存在的顯著短板，為多語言AI發(fā)展提供了重要參考。

傳統(tǒng)評(píng)估體系將圖像與文字分開處理，這種模式與現(xiàn)實(shí)場(chǎng)景存在明顯脫節(jié)。研究團(tuán)隊(duì)發(fā)現(xiàn)，當(dāng)用戶用手機(jī)拍攝包含日語文字和圖表的考試卷、產(chǎn)品說明書或網(wǎng)頁截圖時(shí)，現(xiàn)有開源模型在理解這類復(fù)合信息時(shí)表現(xiàn)堪憂。為解決這個(gè)問題，研究團(tuán)隊(duì)將原有JMMMU基準(zhǔn)中的1320個(gè)問題重新設(shè)計(jì)，將文字與圖像融合成完整視覺單元，形成更貼近真實(shí)應(yīng)用的測(cè)試環(huán)境。

創(chuàng)新性的Vibe基準(zhǔn)構(gòu)建法采用人機(jī)協(xié)作模式，利用Nano Banana Pro圖像生成模型自動(dòng)創(chuàng)建測(cè)試樣本。通過預(yù)設(shè)背景類型、字體樣式、圖像比例等九類參數(shù)，系統(tǒng)可生成模擬手機(jī)拍攝、電腦截圖、黑板板書等多樣化場(chǎng)景。人工質(zhì)檢團(tuán)隊(duì)對(duì)生成樣本進(jìn)行三輪篩選，確保文字清晰度與內(nèi)容準(zhǔn)確性，最終實(shí)現(xiàn)95%樣本的自動(dòng)化生成。

實(shí)驗(yàn)結(jié)果引發(fā)行業(yè)震動(dòng)：14個(gè)參與測(cè)試的開源模型中，表現(xiàn)最優(yōu)的Qwen3-VL-8B準(zhǔn)確率僅47.27%，九個(gè)模型得分低于32%。與之形成鮮明對(duì)比的是，GPT-5.2和Gemini3Pro分別取得83.33%和87.04%的高分。這種差距在需要文化理解的題目中尤為突出，例如涉及日本傳統(tǒng)藝術(shù)或歷史典故的問題，開源模型錯(cuò)誤率較閉源模型高出41%。

深入分析顯示，開源模型存在雙重缺陷：基礎(chǔ)層面的光學(xué)字符識(shí)別（OCR）能力不足，導(dǎo)致37%的錯(cuò)誤源于文字識(shí)別錯(cuò)誤；高階層面的視覺文本整合能力欠缺，即使準(zhǔn)確識(shí)別文字也難以建立圖文邏輯關(guān)聯(lián)。研究特別指出，英語中心模型在日語文本識(shí)別時(shí)表現(xiàn)混亂，多語言模型在復(fù)雜布局處理上力不從心，日語專項(xiàng)模型則缺乏跨學(xué)科知識(shí)遷移能力。

該研究對(duì)產(chǎn)業(yè)應(yīng)用具有重要啟示。當(dāng)前開源模型在處理用戶實(shí)際需求時(shí)存在明顯斷層，例如解讀藥品說明書、分析圖表數(shù)據(jù)等場(chǎng)景。商業(yè)閉源模型的優(yōu)勢(shì)不僅體現(xiàn)在技術(shù)層面，更反映出其在數(shù)據(jù)質(zhì)量、訓(xùn)練策略和資源投入上的系統(tǒng)性領(lǐng)先。研究團(tuán)隊(duì)建議開發(fā)者應(yīng)重點(diǎn)關(guān)注OCR精度提升、跨模態(tài)對(duì)齊算法優(yōu)化，以及文化特異性知識(shí)注入等關(guān)鍵領(lǐng)域。

技術(shù)方法論層面，Vibe基準(zhǔn)構(gòu)建法開創(chuàng)了數(shù)據(jù)集生產(chǎn)新范式。通過參數(shù)化控制生成過程，該方法可快速擴(kuò)展至其他語言體系。研究團(tuán)隊(duì)已驗(yàn)證其在阿拉伯語、泰語等文字系統(tǒng)中的適配性，僅需調(diào)整字體庫和布局參數(shù)即可生成符合目標(biāo)語言習(xí)慣的測(cè)試樣本。這種靈活性為構(gòu)建全球多語言評(píng)估體系奠定基礎(chǔ)。

學(xué)術(shù)價(jià)值方面，該研究重新定義了多模態(tài)評(píng)估維度。除最終答案準(zhǔn)確性外，研究團(tuán)隊(duì)提出推理路徑分析、錯(cuò)誤類型分類等評(píng)估指標(biāo)，為模型優(yōu)化提供更精細(xì)的指導(dǎo)。實(shí)驗(yàn)發(fā)現(xiàn)，鏈?zhǔn)剿季S提示在復(fù)雜任務(wù)中可使模型性能提升19%，這為改進(jìn)模型推理機(jī)制指明方向。

當(dāng)前研究仍存在局限性。約5%的特殊樣本（如化學(xué)公式、樂譜）仍需人工制作，選擇題形式限制了模型解釋能力的評(píng)估，跨文化適應(yīng)性測(cè)試尚未全面展開。研究團(tuán)隊(duì)建議后續(xù)工作應(yīng)聚焦于生成模型精度提升、評(píng)估維度擴(kuò)展，以及多語言基準(zhǔn)的標(biāo)準(zhǔn)化建設(shè)。

12-19

海信亮相CES 2026：攜RGB Mini LED屏及多款新品開啟創(chuàng)新生活

12-19

中科曙光HAIC2025大會(huì)發(fā)布scaleX萬卡超集群，適配多元場(chǎng)景應(yīng)用

12-19

火山引擎譚待：大模型市場(chǎng)非零和博弈 2026年規(guī)模或迎十倍增長(zhǎng)

12-18

長(zhǎng)城歐拉5上市啦！限時(shí)換新價(jià)9.18萬起，動(dòng)力豐富續(xù)航給力

12-18

長(zhǎng)城歐拉5上市：以越級(jí)實(shí)力與誠(chéng)意價(jià)格，成全球年輕用戶“嚴(yán)選搭子”

12-18

可愛時(shí)尚又健康！長(zhǎng)城歐拉5攜新平臺(tái)，純電續(xù)航亮眼未來可期

12-18

寧德時(shí)代中州基地“小墨”上崗：具身智能破解柔性生產(chǎn)難題，產(chǎn)能效率雙提升

人形機(jī)器人“小墨”已能精準(zhǔn)完成電池接插件插接等復(fù)雜作業(yè)，標(biāo)志著具身智能在智能制造領(lǐng)域投入應(yīng)用。此次落地不僅解決了動(dòng)力電池PACK線的柔性生產(chǎn)難題，更驗(yàn)證了具身智能在工業(yè)領(lǐng)域的核心價(jià)值，即具身智能機(jī)器人以“類…

12-18

寧德時(shí)代產(chǎn)線迎新“員工”：“小墨”機(jī)器人規(guī)模化上崗提質(zhì)增效

在這條產(chǎn)線上工作的人形機(jī)器人“小墨”由寧德時(shí)代生態(tài)企業(yè)——千尋智能機(jī)器人公司研發(fā)，搭載寧德時(shí)代自研電池。紅星資本局從千尋智能了解到，“小墨”已能精準(zhǔn)完成電池接插件插接等復(fù)雜作業(yè)。天眼查顯示，2024年11…

12-18

具身智能新突破！寧德時(shí)代“小墨”機(jī)器人規(guī)模化落地電池產(chǎn)線

人形機(jī)器人“小墨”已能精準(zhǔn)完成電池接插件插接等復(fù)雜作業(yè)，標(biāo)志著具身智能在智能制造領(lǐng)域的應(yīng)用取得里程碑式突破。為了將實(shí)際場(chǎng)景需求轉(zhuǎn)化為工程技術(shù)指標(biāo)，寧德時(shí)代聯(lián)合多個(gè)部門深入產(chǎn)線調(diào)研，共同制定了兼具前瞻性與落地可…

12-18

具身智能“小墨”上崗寧德時(shí)代產(chǎn)線開啟電池制造柔性智造新篇章

消息，寧德時(shí)代今日官宣，全球首條實(shí)現(xiàn)人形具身智能機(jī)器人規(guī)模化落地的新能源動(dòng)力電池 PACK 生產(chǎn)線，在寧德時(shí)代中州基地正式投入運(yùn)行。面對(duì)多型號(hào)電池的連續(xù)生產(chǎn)任務(wù)，其單日工作量實(shí)現(xiàn)了三倍提升，且一致性與穩(wěn)定性表…

12-18

日立2027年前將引入自研人形機(jī)器人進(jìn)廠，承擔(dān)電子布線安裝等復(fù)雜作業(yè)

日立開發(fā)的人形機(jī)器人的試制品擁有兩只手臂，搭載驅(qū)動(dòng) AI 的計(jì)算機(jī)和攝像頭，兩只手臂上各有兩根手指；該機(jī)器人沒有腿，配備帶輪子的轉(zhuǎn)向架。據(jù)IT之家此前報(bào)道，日本川崎重工于 12 月 3 日公開人形機(jī)器人的…

12-18

全球首條！人形機(jī)器人“小墨”批量上崗，寧德時(shí)代產(chǎn)線智能化升級(jí)再提速

【太平洋科技】12 月 18 日消息，據(jù)《科創(chuàng)板日?qǐng)?bào)》報(bào)道，全球首條實(shí)現(xiàn)人形具身智能機(jī)器人規(guī)模化落地的新能源動(dòng)力電池 PACK生產(chǎn)線，近日已在寧德時(shí)代中州基地正式投入運(yùn)行。此次批量上崗的人形機(jī)器人名為…

12-18

魏建軍炮轟車圈亂象：智能車創(chuàng)新不能“忽悠”，購車指南或成破局關(guān)鍵

12-18

OpenAI擬融千億美元估值或躍至7500億，加速布局AI多模態(tài)與資本化

12-18

點(diǎn)擊查看更多 +

全站最新

合資新能源破局者：東風(fēng)日產(chǎn)N7憑啥半年狂攬5萬銷量？

2026款電動(dòng)MINI COOPER上市，經(jīng)典設(shè)計(jì)邂逅5G科技與多樣配置

奔馳全新純電MPV VLE預(yù)告來襲，2026首發(fā)，豪華配置直指高端市場(chǎng)

紅旗HS6 PHEV：17萬起售，大電池長(zhǎng)續(xù)航，性價(jià)比“卷”出新高度

長(zhǎng)城歐拉5上市啦！限時(shí)換新價(jià)9.18萬起，動(dòng)力豐富續(xù)航給力

哈弗H9柴油穿越版上市，硬核配置助力1400公里高原探秘之旅

熱門內(nèi)容

本欄最新

長(zhǎng)城歐拉5上市啦！限時(shí)換新價(jià)9.18萬起，動(dòng)力豐富續(xù)航給力

長(zhǎng)城歐拉5上市：以越級(jí)實(shí)力與誠(chéng)意價(jià)格，成全球年輕用戶“嚴(yán)選搭子”

可愛時(shí)尚又健康！長(zhǎng)城歐拉5攜新平臺(tái)，純電續(xù)航亮眼未來可期

AI賽道變局：初創(chuàng)探路一年后，大廠憑「螞蟻阿福」搶占生活主場(chǎng)

玄瞳AI以數(shù)據(jù)算法為翼攜手華為云助力地方快消產(chǎn)業(yè)數(shù)智騰飛

比亞迪L3級(jí)自動(dòng)駕駛內(nèi)測(cè)成果顯著，安全為基引領(lǐng)“全民智駕”新征程

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级

東京大學(xué)新研究：AI生成基準(zhǔn)測(cè)試，開源多模態(tài)模型短板顯露