人工智能領(lǐng)域近期迎來一項(xiàng)突破性發(fā)現(xiàn):香港科技大學(xué)(廣州)廖晨飛團(tuán)隊(duì)聯(lián)合多所高校的研究表明,在視覺令牌壓縮任務(wù)中,傳統(tǒng)基準(zhǔn)測試可能存在嚴(yán)重缺陷。這項(xiàng)發(fā)表于arXiv平臺(tái)的研究通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),簡單圖像縮放方法在現(xiàn)有評(píng)估體系下竟能超越復(fù)雜壓縮算法,這一反常現(xiàn)象促使研究團(tuán)隊(duì)開發(fā)出新型評(píng)估框架VTC-Bench。
多模態(tài)大模型處理圖像時(shí)需將畫面分解為數(shù)萬個(gè)視覺令牌,其數(shù)量遠(yuǎn)超文本令牌。為提升處理效率,科研人員開發(fā)了多種壓縮技術(shù),但實(shí)驗(yàn)顯示這些精心設(shè)計(jì)的算法在現(xiàn)有基準(zhǔn)測試中表現(xiàn)平平。研究團(tuán)隊(duì)選取四種典型壓縮方法與簡單縮放進(jìn)行對(duì)比,在七個(gè)主流測試集上發(fā)現(xiàn):當(dāng)壓縮75%數(shù)據(jù)時(shí),縮放法平均得分達(dá)91.0%,而最先進(jìn)的DART算法僅83.9%;即使壓縮99%極端情況下,縮放法仍保持優(yōu)勢。
進(jìn)一步分析揭示,現(xiàn)有測試集包含大量"簡單題",導(dǎo)致不同方法得分趨同。研究團(tuán)隊(duì)設(shè)計(jì)對(duì)照實(shí)驗(yàn),用縮放法將測試樣本分為"簡單組"和"困難組",結(jié)果顯示:簡單組中所有方法準(zhǔn)確率均超87.6%,而在困難組中復(fù)雜算法優(yōu)勢顯著。這印證了原有評(píng)估體系無法區(qū)分技術(shù)差異的猜想,就像用加減法測試科學(xué)計(jì)算器般不合理。
基于上述發(fā)現(xiàn),VTC-Bench評(píng)估框架應(yīng)運(yùn)而生。該框架采用雙軌篩選機(jī)制:首先用縮放法進(jìn)行初篩,僅保留復(fù)雜算法能處理而縮放法失效的困難樣本,最終評(píng)估僅針對(duì)這些樣本進(jìn)行。這種設(shè)計(jì)無需新增測試數(shù)據(jù),而是從現(xiàn)有資源中提取高價(jià)值評(píng)估樣本,確保不同壓縮比例下都能精準(zhǔn)反映技術(shù)差異。
在Qwen2-VL和LLaVA-OV等主流模型上的驗(yàn)證顯示,新框架成功消除數(shù)據(jù)噪聲。以ChartQA測試集為例,75%壓縮比例下,VisionZip與FastV的性能差距從8.8%擴(kuò)大至16.2%;GQA測試集96%壓縮時(shí),差距從0.3%增至9.0%。這種動(dòng)態(tài)適應(yīng)不同壓縮比例的評(píng)估方式,為開發(fā)者提供了更精準(zhǔn)的算法選擇依據(jù)。
技術(shù)實(shí)現(xiàn)層面,研究團(tuán)隊(duì)選用支持動(dòng)態(tài)分辨率的Qwen2-VL作為篩選模型,確保縮放操作真正減少令牌數(shù)量。通過數(shù)學(xué)公式平衡不同方法的壓縮比例,實(shí)驗(yàn)覆蓋75%至99%的壓縮區(qū)間,每個(gè)比例生成對(duì)應(yīng)困難子集。這種設(shè)計(jì)使評(píng)估既全面又具有針對(duì)性,避免了過去"一刀切"的評(píng)估模式。
盡管取得突破,研究團(tuán)隊(duì)也指出當(dāng)前框架的局限性。過度依賴縮放法作為篩選器可能導(dǎo)致某些任務(wù)下困難樣本不足,不同模型對(duì)分辨率的敏感度差異也會(huì)影響評(píng)估普適性。現(xiàn)有測試集均基于英文環(huán)境,跨語言評(píng)估能力有待驗(yàn)證。這些發(fā)現(xiàn)為后續(xù)研究指明了方向,包括開發(fā)通用篩選機(jī)制和設(shè)計(jì)多語言評(píng)估模塊。
該研究引發(fā)的思考遠(yuǎn)超技術(shù)范疇。當(dāng)AI系統(tǒng)復(fù)雜度呈指數(shù)級(jí)增長時(shí),評(píng)估工具的設(shè)計(jì)邏輯需要同步革新。VTC-Bench展示的數(shù)據(jù)過濾思想,為自然語言處理、語音識(shí)別等領(lǐng)域提供了新范式——通過精準(zhǔn)篩選評(píng)估樣本,讓技術(shù)差異在更合適的舞臺(tái)上展現(xiàn)。這種"用對(duì)工具測真本事"的理念,或?qū)⑼苿?dòng)整個(gè)人工智能評(píng)估體系向更專業(yè)的方向發(fā)展。
針對(duì)公眾關(guān)心的核心問題,研究團(tuán)隊(duì)給出明確解答:VTC-Bench并非否定現(xiàn)有測試,而是提供更適配視覺壓縮任務(wù)的評(píng)估工具;縮放法的"虛假優(yōu)勢"源于測試題過于簡單;新框架通過三步篩選——并行處理、樣本分類、重點(diǎn)評(píng)估,確保復(fù)雜算法的技術(shù)價(jià)值得以客觀呈現(xiàn)。這些創(chuàng)新為AI技術(shù)評(píng)估樹立了新標(biāo)桿。











