東京大學(xué)研究團(tuán)隊(duì)近期在人工智能領(lǐng)域取得突破性進(jìn)展,針對(duì)日語多模態(tài)理解任務(wù)開發(fā)出全新評(píng)估基準(zhǔn)JMMMU-Pro,并創(chuàng)新性地提出Vibe基準(zhǔn)構(gòu)建法。這項(xiàng)研究揭示了當(dāng)前開源AI模型在處理圖文混合內(nèi)容時(shí)存在的顯著短板,為多語言AI發(fā)展提供了重要參考。
傳統(tǒng)評(píng)估體系將圖像與文字分開處理,這種模式與現(xiàn)實(shí)場(chǎng)景存在明顯脫節(jié)。研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)用戶用手機(jī)拍攝包含日語文字和圖表的考試卷、產(chǎn)品說明書或網(wǎng)頁截圖時(shí),現(xiàn)有開源模型在理解這類復(fù)合信息時(shí)表現(xiàn)堪憂。為解決這個(gè)問題,研究團(tuán)隊(duì)將原有JMMMU基準(zhǔn)中的1320個(gè)問題重新設(shè)計(jì),將文字與圖像融合成完整視覺單元,形成更貼近真實(shí)應(yīng)用的測(cè)試環(huán)境。
創(chuàng)新性的Vibe基準(zhǔn)構(gòu)建法采用人機(jī)協(xié)作模式,利用Nano Banana Pro圖像生成模型自動(dòng)創(chuàng)建測(cè)試樣本。通過預(yù)設(shè)背景類型、字體樣式、圖像比例等九類參數(shù),系統(tǒng)可生成模擬手機(jī)拍攝、電腦截圖、黑板板書等多樣化場(chǎng)景。人工質(zhì)檢團(tuán)隊(duì)對(duì)生成樣本進(jìn)行三輪篩選,確保文字清晰度與內(nèi)容準(zhǔn)確性,最終實(shí)現(xiàn)95%樣本的自動(dòng)化生成。
實(shí)驗(yàn)結(jié)果引發(fā)行業(yè)震動(dòng):14個(gè)參與測(cè)試的開源模型中,表現(xiàn)最優(yōu)的Qwen3-VL-8B準(zhǔn)確率僅47.27%,九個(gè)模型得分低于32%。與之形成鮮明對(duì)比的是,GPT-5.2和Gemini3Pro分別取得83.33%和87.04%的高分。這種差距在需要文化理解的題目中尤為突出,例如涉及日本傳統(tǒng)藝術(shù)或歷史典故的問題,開源模型錯(cuò)誤率較閉源模型高出41%。
深入分析顯示,開源模型存在雙重缺陷:基礎(chǔ)層面的光學(xué)字符識(shí)別(OCR)能力不足,導(dǎo)致37%的錯(cuò)誤源于文字識(shí)別錯(cuò)誤;高階層面的視覺文本整合能力欠缺,即使準(zhǔn)確識(shí)別文字也難以建立圖文邏輯關(guān)聯(lián)。研究特別指出,英語中心模型在日語文本識(shí)別時(shí)表現(xiàn)混亂,多語言模型在復(fù)雜布局處理上力不從心,日語專項(xiàng)模型則缺乏跨學(xué)科知識(shí)遷移能力。
該研究對(duì)產(chǎn)業(yè)應(yīng)用具有重要啟示。當(dāng)前開源模型在處理用戶實(shí)際需求時(shí)存在明顯斷層,例如解讀藥品說明書、分析圖表數(shù)據(jù)等場(chǎng)景。商業(yè)閉源模型的優(yōu)勢(shì)不僅體現(xiàn)在技術(shù)層面,更反映出其在數(shù)據(jù)質(zhì)量、訓(xùn)練策略和資源投入上的系統(tǒng)性領(lǐng)先。研究團(tuán)隊(duì)建議開發(fā)者應(yīng)重點(diǎn)關(guān)注OCR精度提升、跨模態(tài)對(duì)齊算法優(yōu)化,以及文化特異性知識(shí)注入等關(guān)鍵領(lǐng)域。
技術(shù)方法論層面,Vibe基準(zhǔn)構(gòu)建法開創(chuàng)了數(shù)據(jù)集生產(chǎn)新范式。通過參數(shù)化控制生成過程,該方法可快速擴(kuò)展至其他語言體系。研究團(tuán)隊(duì)已驗(yàn)證其在阿拉伯語、泰語等文字系統(tǒng)中的適配性,僅需調(diào)整字體庫和布局參數(shù)即可生成符合目標(biāo)語言習(xí)慣的測(cè)試樣本。這種靈活性為構(gòu)建全球多語言評(píng)估體系奠定基礎(chǔ)。
學(xué)術(shù)價(jià)值方面,該研究重新定義了多模態(tài)評(píng)估維度。除最終答案準(zhǔn)確性外,研究團(tuán)隊(duì)提出推理路徑分析、錯(cuò)誤類型分類等評(píng)估指標(biāo),為模型優(yōu)化提供更精細(xì)的指導(dǎo)。實(shí)驗(yàn)發(fā)現(xiàn),鏈?zhǔn)剿季S提示在復(fù)雜任務(wù)中可使模型性能提升19%,這為改進(jìn)模型推理機(jī)制指明方向。
當(dāng)前研究仍存在局限性。約5%的特殊樣本(如化學(xué)公式、樂譜)仍需人工制作,選擇題形式限制了模型解釋能力的評(píng)估,跨文化適應(yīng)性測(cè)試尚未全面展開。研究團(tuán)隊(duì)建議后續(xù)工作應(yīng)聚焦于生成模型精度提升、評(píng)估維度擴(kuò)展,以及多語言基準(zhǔn)的標(biāo)準(zhǔn)化建設(shè)。










