阿里巴巴通義實驗室的研究人員近日公布了一項突破性成果:他們開發的AI系統WebWatcher能夠像經驗豐富的偵探一樣,同時處理圖片和文字信息,在網絡上自主完成信息搜索、數據分析和結論推導。這項研究成果已通過GitHub平臺開源,完整代碼和技術文檔可在https://github.com/Alibaba-NLP/WebAgent獲取。
傳統AI助手在面對復雜問題時,往往需要用戶自行在搜索引擎中篩選信息、分析文檔,這個過程如同偵探需要手動收集線索。而WebWatcher的創新之處在于,它能主動理解問題需求,自主規劃調查路徑,綜合運用圖片識別、網頁搜索、數學計算等多種工具,最終提供經過驗證的可靠結論。在需要多模態信息整合的任務中,該系統展現出超越GPT-4o等知名AI的表現。
研究團隊特別強調了多模態深度整合的重要性。現有AI系統大多只能處理單一類型信息,就像偵探團隊中成員各自為戰。WebWatcher則實現了視覺信息與文本信息的有機融合,其工作模式更接近人類研究員的思考方式。當用戶上傳一張陌生植物照片時,系統不僅能識別物種特征,還能自動搜索相關植物學資料,分析生長環境,甚至計算不同地區的分布概率。
訓練數據的創新設計是這項研究的關鍵突破。研究團隊沒有簡單擴大數據規模,而是構建了包含數十萬高質量樣本的漸進式訓練體系。數據生成過程模擬人類研究員的知識探索路徑,通過隨機游走維基百科、GitHub等知識庫,建立知識點間的關聯網絡。更獨特的是,系統自動將文本問題轉換為需要圖像理解的復合任務,迫使模型必須結合多模態信息才能得出正確答案。
在評估基準方面,研究團隊提出了BrowseComp-VL新型測試標準。該測試包含大量需要跨模態推理的復雜問題,例如通過分析建筑照片來解答其歷史背景,或根據模糊描述確定特定人物的詳細信息。測試結果顯示,WebWatcher在"人類最后考試"基準中達到13.6%的通過率,在BrowseComp-VL測試中平均得分27.0%,兩項指標均領先同類開源系統。
系統的核心能力體現在五個維度:圖像內容理解與搜索、智能網頁信息提取、動態網頁訪問分析、數學計算驗證以及文字識別處理。這些能力不是孤立運作,而是根據問題需求動態組合。當處理包含統計圖表的問題時,系統會先識別圖表元素,然后訪問相關網頁獲取原始數據,最后通過代碼執行進行趨勢分析,整個過程如同專業研究員的完整工作流程。
強化學習機制使系統具備自我改進能力。研究團隊采用群體相對策略優化方法,讓多個解決方案同時競爭,保留表現優異的策略。這種訓練方式使系統學會了根據問題類型選擇最佳工具組合,在科學類問題中側重數據計算,在歷史類問題中強化文獻檢索,顯著提升了處理效率和準確性。
技術實現的深層價值在于推理過程的可解釋性。系統會詳細記錄每個決策步驟,包括為何選擇特定搜索策略、如何分析獲取的信息、結論依據哪些證據等。這種透明度不僅有助于驗證結果可靠性,也為后續優化提供了明確方向。研究論文中展示的典型案例顯示,系統在處理復雜問題時展現出的邏輯嚴謹性,已接近人類專家的思考水平。
目前該技術仍處于研究階段,但開源代碼為開發者提供了創新基礎。研究團隊指出,這類多模態智能系統的成熟,可能徹底改變人類獲取信息的方式。未來用戶或許只需提出自然語言問題,就能獲得經過深度分析的完整答案,而無需在多個平臺間切換。這種技術演進方向,正在重新定義人機協作的邊界。











