隨著AI瀏覽器市場競爭加劇,以OpenAI Atlas為代表的新一代產品憑借自然語言驅動的網頁自動化功能引發關注,但同時也催生了新型網絡安全威脅。由南洋理工大學牽頭,聯合香港理工大學、夏瑪諾阿分校共同研發的WebCloak防御系統,通過創新性的網頁結構與語義混淆技術,為數據安全構建起輕量化防護屏障。
研究團隊發現,當前主流Web Agent均采用"解析-理解"雙層工作流:首先通過工具壓縮網頁結構至千級token量級,再由大語言模型提取目標數據。這種技術范式雖提升自動化效率,卻形成三大安全隱患:模擬真實瀏覽器環境繞過IP審查、破解驗證碼成功率攀升、防御系統計算成本過高。更嚴峻的是,LLM技術已將爬蟲開發門檻降至冰點——新手使用Gemini-2.5-Pro生成腳本僅需1.5分鐘,效果優于31分鐘完成的專家方案。
針對這一技術漏洞,WebCloak構建了雙層防御體系。在結構層面,系統通過加密隨機生成器動態修改HTML標簽,每次用戶會話生成獨特結構,同時植入標準格式的蜜罐地址。配套的客戶端腳本能在0.052秒內完成視覺還原,通過Shadow DOM技術隱藏真實資源地址,確保人類用戶無感知瀏覽。該機制已實現對圖片、文本、音頻等多類型資產的統一防護。
語義防御層面,系統采用"精準注入-對抗優化"策略。防御模型在目標元素前后及屬性位置插入三類誤導線索:包括偽造的API驗證提示、安全策略觸發語句和虛假解密指引。這些經過GPT-4o-mini生成與GPT-4驗證的語義陷阱,與網頁上下文深度融合,手動清除成本高昂。實驗顯示,即使攻擊者刪除90%的誤導信息,主流Web Agent的爬蟲召回率仍被壓制在21.2%以下。
基于自建的LLMCrawlBench基準數據集(覆蓋50個熱門網站的237個網頁快照),測試結果表明該系統對三類主流Web Agent實現完全阻斷:Gemini-2.5-pro(L2S)、Crawl4AI(LNC)、Browser-Use(LWA)的爬蟲召回率從平均88.7%降至零。面對已知防御機制的自適應攻擊,L2S和LNC的突破成功率分別僅有0.3%和1.58%。系統性能開銷控制出色,服務器端配置生成僅需3分鐘/頁,客戶端還原延遲0.052秒,頁面體積增幅20.8%。用戶盲測顯示,91%的參與者未察覺瀏覽體驗變化,視覺相似度評估達99.9%。
這項突破性技術已實現全平臺兼容,支持Chrome、Firefox等主流瀏覽器及Windows、macOS等操作系統,特別適用于電商平臺、內容創作等數據敏感場景。研究團隊已公開項目主頁與論文鏈接,并提供完整代碼庫。當前系統版本通過動態混淆邏輯優化,已具備應對未來Web Agent技術演進的基礎能力。










