上海人工智能實(shí)驗(yàn)室聯(lián)合華盛頓大學(xué)、復(fù)旦大學(xué)、清華大學(xué)等頂尖高校的研究團(tuán)隊(duì),近日在計(jì)算機(jī)視覺(jué)領(lǐng)域取得重大突破。他們開(kāi)發(fā)的Hi3Deval系統(tǒng)能夠自動(dòng)、精準(zhǔn)地評(píng)估人工智能生成的3D模型質(zhì)量,相關(guān)成果已發(fā)布在arXiv預(yù)印本平臺(tái)(編號(hào):arXiv:2508.05609v1)。這項(xiàng)研究為3D內(nèi)容創(chuàng)作提供了標(biāo)準(zhǔn)化評(píng)估工具,解決了長(zhǎng)期困擾行業(yè)的質(zhì)量評(píng)價(jià)難題。
隨著AI生成3D模型技術(shù)的快速發(fā)展,如何客觀評(píng)價(jià)生成質(zhì)量成為關(guān)鍵挑戰(zhàn)。傳統(tǒng)方法主要依賴人工評(píng)估,不僅耗時(shí)費(fèi)力,且不同專家的評(píng)判標(biāo)準(zhǔn)存在差異,導(dǎo)致結(jié)果缺乏一致性。現(xiàn)有自動(dòng)化方法又難以全面理解3D模型的空間結(jié)構(gòu)和材質(zhì)特性,無(wú)法準(zhǔn)確評(píng)估幾何合理性、細(xì)節(jié)豐富度等關(guān)鍵指標(biāo)。
研究團(tuán)隊(duì)構(gòu)建的Hi3Deval系統(tǒng)采用多層次評(píng)價(jià)體系,從整體結(jié)構(gòu)、局部細(xì)節(jié)和材質(zhì)表現(xiàn)三個(gè)維度進(jìn)行全面評(píng)估。整體層面關(guān)注模型的幾何合理性、紋理質(zhì)量以及與原始要求的匹配度;局部層面深入分析模型各組成部分的幾何特征和細(xì)節(jié)問(wèn)題;材質(zhì)層面則評(píng)估表面材料在不同光照條件下的真實(shí)性和一致性。
為實(shí)現(xiàn)精準(zhǔn)評(píng)估,團(tuán)隊(duì)創(chuàng)建了包含超過(guò)1.5萬(wàn)個(gè)3D模型的大型數(shù)據(jù)庫(kù)Hi3DBench。這些模型來(lái)自30種不同的生成方法,涵蓋文字轉(zhuǎn)3D和圖片轉(zhuǎn)3D兩大主流技術(shù)。數(shù)據(jù)庫(kù)中的模型經(jīng)過(guò)精心分類,包含9種文字生成方法和21種圖片生成方法,確保評(píng)估系統(tǒng)具有廣泛的適用性。
研究團(tuán)隊(duì)創(chuàng)新性地采用混合評(píng)估方法,結(jié)合視頻分析和3D幾何特征提取技術(shù)。對(duì)于整體和材質(zhì)評(píng)估,系統(tǒng)通過(guò)觀看360度旋轉(zhuǎn)視頻來(lái)理解模型的空間結(jié)構(gòu),就像人類觀察實(shí)物一樣從多個(gè)角度進(jìn)行評(píng)估。對(duì)于局部評(píng)估,系統(tǒng)直接分析3D網(wǎng)格數(shù)據(jù),能夠精確定位幾何扭曲、表面缺陷等局部問(wèn)題。
為確保評(píng)估標(biāo)準(zhǔn)的準(zhǔn)確性和一致性,團(tuán)隊(duì)開(kāi)發(fā)了多智能體協(xié)作標(biāo)注系統(tǒng)。該系統(tǒng)由GPT-4.1、Gemini 2.5 Pro、Claude 3.7等先進(jìn)大語(yǔ)言模型組成"專家評(píng)委團(tuán)",通過(guò)協(xié)作、反思和修正機(jī)制提高評(píng)分準(zhǔn)確性。實(shí)驗(yàn)表明,這種協(xié)作方式的評(píng)分誤差顯著低于單個(gè)AI模型,與人類專家的評(píng)分結(jié)果高度一致。
在材質(zhì)評(píng)估方面,系統(tǒng)設(shè)置了多種光照條件,包括點(diǎn)光源照明和高動(dòng)態(tài)范圍圖像環(huán)境照明,模擬真實(shí)世界中的室內(nèi)外、自然光和人工光等場(chǎng)景。通過(guò)觀察模型在不同光照下的表現(xiàn),系統(tǒng)能夠準(zhǔn)確評(píng)估材質(zhì)的物理真實(shí)性,如金屬表面的反射特性、木材的漫反射效果等。
實(shí)驗(yàn)結(jié)果顯示,Hi3Deval在各個(gè)評(píng)估維度上都達(dá)到或超過(guò)了人類專家水平。在整體評(píng)價(jià)方面,系統(tǒng)的準(zhǔn)確率比現(xiàn)有方法提高10-15個(gè)百分點(diǎn);在材質(zhì)評(píng)價(jià)方面,特別是在光照一致性和材質(zhì)真實(shí)性檢測(cè)上表現(xiàn)尤為出色;局部評(píng)估能夠準(zhǔn)確定位模型中的問(wèn)題區(qū)域,為改進(jìn)提供具體指導(dǎo)。
這項(xiàng)技術(shù)具有廣泛的應(yīng)用前景。在游戲開(kāi)發(fā)領(lǐng)域,它可以幫助工作室快速篩選和優(yōu)化3D資源,提高制作效率;在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)應(yīng)用中,準(zhǔn)確的評(píng)估能確保用戶獲得更真實(shí)的沉浸式體驗(yàn);電商平臺(tái)可以利用該系統(tǒng)自動(dòng)檢查商品3D展示模型的質(zhì)量,提升消費(fèi)者購(gòu)物體驗(yàn);建筑和工業(yè)設(shè)計(jì)領(lǐng)域則能通過(guò)幾何評(píng)估及早發(fā)現(xiàn)設(shè)計(jì)缺陷。
盡管取得突破性進(jìn)展,研究團(tuán)隊(duì)也指出系統(tǒng)目前存在的局限性。Hi3Deval主要針對(duì)單個(gè)物體進(jìn)行評(píng)估,對(duì)于復(fù)雜場(chǎng)景或動(dòng)態(tài)內(nèi)容的評(píng)估能力還有待提升;在處理高度風(fēng)格化或抽象模型時(shí),評(píng)估準(zhǔn)確性可能會(huì)受到影響;特殊材質(zhì)如發(fā)光材料、透明材質(zhì)的評(píng)估也需要進(jìn)一步優(yōu)化。
技術(shù)實(shí)現(xiàn)方面,系統(tǒng)采用3D卷積層處理視頻的時(shí)空信息,結(jié)合回歸損失和排序損失確保評(píng)分準(zhǔn)確性和可靠性。部分評(píng)估模塊設(shè)計(jì)了雙重注意力機(jī)制,使局部特征評(píng)估既能考慮全局上下文,又能保持局部一致性。這些創(chuàng)新設(shè)計(jì)使系統(tǒng)在計(jì)算效率和評(píng)估準(zhǔn)確性上達(dá)到良好平衡。
研究團(tuán)隊(duì)利用訓(xùn)練好的系統(tǒng)對(duì)22種主流3D生成方法進(jìn)行了全面排名。結(jié)果顯示,Hunyuan3D 2.5在綜合評(píng)估中表現(xiàn)最優(yōu),特別是在幾何合理性方面;在材質(zhì)評(píng)估方面,Hunyuan3D 2.0和Trellis方法表現(xiàn)突出。這些排名為3D生成技術(shù)的研究和開(kāi)發(fā)提供了重要參考。
該系統(tǒng)的開(kāi)發(fā)過(guò)程體現(xiàn)了嚴(yán)謹(jǐn)?shù)目茖W(xué)態(tài)度。研究團(tuán)隊(duì)使用了510個(gè)不同的生成提示,涵蓋從簡(jiǎn)單物體到復(fù)雜場(chǎng)景的各種情況;每個(gè)模型被渲染成包含普通RGB視圖、法線貼圖視圖和著色視圖的360度旋轉(zhuǎn)視頻;采用先進(jìn)的3D分割技術(shù)將模型分解為有意義的組成部分,確保評(píng)估的精確性。











