上海人工智能實驗室聯合浙江大學等科研機構,近日發布了全球首個針對大語言模型視頻轉交互網頁能力的評測基準IWR-Bench。該基準聚焦多模態大語言模型(LVLM)在動態網頁重建場景下的技術突破,填補了AI前端開發領域動態交互能力評估的空白,為行業提供了全新的技術參照體系。
與傳統圖像轉代碼任務不同,IWR-Bench要求模型通過分析用戶操作全流程視頻,結合匿名化處理的靜態資源文件,完成從簡單頁面導航到復雜游戲邏輯(如2048游戲、機票預訂系統)的動態交互重建。評測覆蓋28個主流模型,結果顯示最先進的GPT-5綜合得分僅36.35分,其中交互功能正確性(IFS)得分24.39%,視覺還原度(VFS)得分64.25%,暴露出模型在事件驅動邏輯實現上的顯著短板。
技術評測體系設計突破傳統框架,采用自動化代理評估交互功能正確性,要求模型僅通過視覺匹配關聯匿名化資源文件,杜絕語義推理的干擾。這種設計更貼近真實開發場景,迫使模型必須理解操作視頻中的因果關系鏈和狀態變化軌跡,才能生成符合預期的代碼邏輯。測試數據顯示,超過75%的模型生成網頁存在交互缺陷,包括事件響應錯誤、狀態管理混亂和業務邏輯缺失等問題。
研究團隊發現,具備"思考"機制的模型版本在特定任務中表現略有提升,但整體性能仍受限于基礎模型能力。更值得注意的是,專為視頻理解優化的模型在該任務中表現遜于通用多模態模型,揭示出視頻轉網頁任務需要超越單純內容理解的特殊能力——即將動態行為抽象為程序邏輯的轉化能力。
技術挑戰呈現多維度特征:時序理解要求模型從連續視頻幀中提取關鍵交互事件;邏輯抽象需要將觀察到的行為模式轉化為編程概念;資源匹配需在匿名化文件中精準定位對應資源;代碼生成則要確保HTML/CSS/Javascript的結構合理性與邏輯正確性。這些挑戰共同構成了動態網頁重建的技術壁壘。
該基準的推出具有雙重價值:在科研層面,為多模態模型的動態理解能力提供了量化評估工具,精準定位技術薄弱環節;在應用層面,視頻轉網頁技術的成熟將顯著降低前端開發門檻,使非技術人員通過操作演示即可生成功能原型。但研究同時指出,實際開發中的性能優化、兼容性處理、安全防護等復雜需求,仍難以通過視頻演示完全覆蓋。
行業觀察認為,IWR-Bench標志著AI代碼生成技術從靜態描述向動態演示的范式轉變。與傳統依賴文本描述的編碼助手相比,這種"所見即所得"的開發模式可能催生新一代原型工具,使產品經理通過錄制操作視頻即可生成交互原型。但當前模型在復雜動態交互理解上仍處于初級階段,視覺還原與邏輯實現的差距反映出AI在行為理解與程序轉化間的技術鴻溝。
隨著評測基準的推廣應用,預計將引發更多研究關注動態行為理解、時序推理與代碼生成的融合技術。這種技術演進方向不僅可能重塑AI多模態模型的應用場景,更將為智能開發工具的創新提供關鍵技術支撐,推動人機協作開發模式進入新階段。











