在人工智能生成內容(AIGC)領域,擴散概率生成模型憑借其卓越的生成能力占據主導地位,從文生圖到文生視頻,擴散模型的應用不斷拓展。然而,推理速度慢、訓練與推理差異大以及優化困難等問題,始終制約著其更廣泛的應用。近日,一項突破性研究為解決這些難題帶來了全新思路。
傳統擴散模型生成高質量內容往往需要數十甚至上百步迭代,從純噪聲中逐步恢復圖像。這帶來了兩個核心矛盾:一是推理效率與生成質量的難以平衡,減少迭代步數會導致畫質下降,而追求高質量又需忍受漫長生成時間;二是理論與實踐的脫節,為加速推理,業界提出多種基于微分方程(ODE)的求解器,但這些方法多為數值近似技巧,缺乏對擴散過程本質的解釋,且許多加速算法依賴參考軌跡優化,增加了計算開銷并限制了模型泛化能力。
針對這些問題,一項被NeurIPS 2025接收的論文提出全新解法。研究團隊跳出傳統數值求解思維,從信息感知推理視角出發,將去噪過程重構為實時熵減優化問題。該研究指出,擴散模型的前向擴散過程是向圖像加噪,熵不斷增加;反向去噪過程則是從混亂中恢復秩序,條件熵應不斷降低。基于此,研究團隊提出“免參考”的自適應方差優化框架——EVODiff。
在擴散模型社區,一直存在一個經驗性共識:推理生成時,直接預測干凈數據(Data Prediction)的參數化方案比預測噪聲(Noise Prediction)的推理范式效果更好,尤其在低步數下更為顯著。這一現象與MIT何愷明團隊最新發布的JiT架構核心洞察不謀而合。何愷明團隊從“流形假設”角度指出,自然數據位于低維流形,噪聲彌漫于高維空間,神經網絡直接預測干凈數據比預測噪聲更容易。而此次研究在數學層面為這一趨勢提供了堅實理論支撐,首次嚴格證明“數據預測參數化”能更直接最小化重建誤差,更有效降低條件熵。
為在迭代中更高效降低數據預測的條件熵,EVODiff回顧擴散模型高斯建模中條件熵與條件方差正相關的特點,即每一步推理中動態調整方差至最小,就能最快逼近真實圖像。基于此,EVODiff構建“無參考”自適應優化框架,無需昂貴預計算參考軌跡,僅利用當前迭代步驟狀態差異,通過計算開銷極低的閉式解,動態實時計算最優方差控制參數,確保每一步朝最高效收斂路徑前進。
EVODiff不僅是一個理論框架,更是一套可直接落地的實時指導算法。其核心特性顯著:一是“免參考”的極致輕量化,與需預先計算高成本軌跡的方法不同,它依靠在線計算,利用當前迭代步驟狀態差異動態優化方差,無額外訓練成本和預處理開銷;二是閉式解的極速計算,許多優化算法需復雜迭代求解,拖慢推理速度,而EVODiff推導出方差優化目標的閉式解,獲取最優參數幾乎不消耗計算資源,實驗顯示其在獲得SOTA畫質時,推理時間略快于DPM-Solver++;三是普適性,無論是像素空間傳統擴散模型、隱空間擴散模型,還是不同噪聲調度策略,EVODiff都能無縫適配并帶來提升。
實驗數據充分證明EVODiff的優越性。在CIFAR - 10(EDM模型)上,極低步數(NFE = 10)挑戰下,基準方法DPM - Solver++的FID為5.10,EVODiff的FID達到2.78,錯誤率降低45.5%;在ImageNet - 256(ADM模型)高分辨率圖像生成中,傳統方法需20 NFE達到SOTA級畫質,EVODiff僅需15 NFE,效率提升25%;在LSUN - Bedrooms(隱空間擴散模型)上,相比UniPC,EVODiff在5 NFE下FID分數提升43.4%,生成速度提升5.3%,表明其不僅適用于學術小模型,更能賦能Stable Diffusion等工業級大模型。
在視覺效果上,EVODiff提升更為直觀。在文本生成圖像任務中,低步數推理常導致圖像結構崩壞,如生成扭曲肢體或模糊背景。以提示詞“An astronaut riding a horse”(宇航員騎馬)為例,競品方法在低步數下馬匹常出現“五條腿”等解剖學錯誤,宇航員與馬融合不自然;而EVODiff生成的圖像結構嚴謹,馬匹四肢正常,光影過渡自然,展現極高語義對齊度和視覺連貫性。德國AI公司Mindverse專題報道指出,EVODiff在文本生成圖像任務中,即使使用簡單提示詞,也能生成更自然、更一致、偽影更少的圖像。











