上海交通大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)、上海人工智能實(shí)驗(yàn)室與復(fù)旦大學(xué)聯(lián)合團(tuán)隊(duì)在AI繪畫(huà)領(lǐng)域取得突破性進(jìn)展。研究團(tuán)隊(duì)提出的G?RPO技術(shù)框架通過(guò)創(chuàng)新機(jī)制解決了傳統(tǒng)AI繪畫(huà)訓(xùn)練中的兩大核心難題,相關(guān)成果已發(fā)表于arXiv平臺(tái)(論文編號(hào):arXiv:2510.01982v1)。
傳統(tǒng)AI繪畫(huà)訓(xùn)練存在"反饋模糊"與"評(píng)估片面"的雙重困境。研究團(tuán)隊(duì)將其類比為烹飪教學(xué):廚師僅能在菜品完成后獲得整體評(píng)價(jià),卻無(wú)法在烹飪過(guò)程中調(diào)整火候;同時(shí)評(píng)判標(biāo)準(zhǔn)僅限于單一視角,忽略了不同光線與距離下的呈現(xiàn)效果。這種訓(xùn)練方式導(dǎo)致模型學(xué)習(xí)效率低下,難以精準(zhǔn)捕捉人類審美偏好。
實(shí)驗(yàn)驗(yàn)證環(huán)節(jié)采用Flux.1-dev流模型作為基礎(chǔ)架構(gòu),在包含10.37萬(wàn)條訓(xùn)練指令與400條測(cè)試指令的HPSv2數(shù)據(jù)集上展開(kāi)測(cè)試。評(píng)估指標(biāo)覆蓋語(yǔ)義契合度、視覺(jué)連貫性、美學(xué)表現(xiàn)等12個(gè)維度。結(jié)果顯示,G?RPO在核心HPS-v2.1指標(biāo)上較現(xiàn)有DanceGRPO方法提升6.52%,且該優(yōu)勢(shì)在50步、20步、10步等不同生成速度下均保持穩(wěn)定,證明其兼具效率與質(zhì)量?jī)?yōu)勢(shì)。
在具體應(yīng)用場(chǎng)景中,新技術(shù)展現(xiàn)出顯著改進(jìn)。生成"國(guó)際象棋棋子表情"時(shí),模型能精準(zhǔn)捕捉棋子面部特征的微妙差異;創(chuàng)作"環(huán)保主題海報(bào)"時(shí),可準(zhǔn)確實(shí)現(xiàn)左右分區(qū)的空間布局要求。這種提升源于訓(xùn)練效率的優(yōu)化——單步采樣策略使多個(gè)樣本共享初始計(jì)算資源,大幅降低算力消耗。
研究特別關(guān)注模型偏好操縱問(wèn)題。傳統(tǒng)方法易導(dǎo)致模型過(guò)度適配特定評(píng)估標(biāo)準(zhǔn),出現(xiàn)"偏科"現(xiàn)象。G?RPO通過(guò)多粒度評(píng)估機(jī)制,迫使模型學(xué)習(xí)通用審美特征,而非簡(jiǎn)單迎合單一標(biāo)準(zhǔn)。實(shí)驗(yàn)表明,該方法生成的圖像在不同評(píng)估體系下均保持質(zhì)量穩(wěn)定性。
從技術(shù)架構(gòu)看,G?RPO具有良好擴(kuò)展性。研究證實(shí),采用單層、雙層或三層評(píng)估粒度均可提升性能,為實(shí)際部署提供了靈活的資源配置方案。這種設(shè)計(jì)使系統(tǒng)既能適配高性能計(jì)算環(huán)境,也可在移動(dòng)端等資源受限場(chǎng)景運(yùn)行。
對(duì)于內(nèi)容創(chuàng)作者而言,新技術(shù)意味著更高效的協(xié)作體驗(yàn)。模型能準(zhǔn)確理解創(chuàng)作意圖,減少反復(fù)修改的次數(shù)。普通用戶使用AI繪畫(huà)工具時(shí),將獲得更貼合個(gè)人審美偏好的生成結(jié)果。研究團(tuán)隊(duì)透露,該技術(shù)已與多家圖像生成平臺(tái)展開(kāi)合作測(cè)試,預(yù)計(jì)未來(lái)12-18個(gè)月內(nèi)逐步推向市場(chǎng)。









