谷歌云AI研究團隊聯合谷歌DeepMind和俄亥俄州立大學的研究者,開發出一款名為"Watch & Learn"(簡稱W&L)的智能系統,該系統通過觀看網絡教程視頻即可自動掌握各類軟件操作技能。這項突破性成果發表于學術平臺arXiv,論文編號為2510.04673v1,研究團隊由來自三所機構的十余位專家組成,涵蓋人工智能、計算機視覺和人機交互等多個領域。
傳統AI學習軟件操作主要依賴人工標注數據或復雜編程指令,而W&L系統開創了全新的學習范式。該系統無需任何人工干預,僅通過分析視頻中連續的屏幕截圖變化,就能逆向推導出用戶執行的操作步驟。這種"逆向動力學建模"方法將計算機操作學習轉化為視覺狀態轉換識別問題,就像通過觀察拼圖前后變化來還原操作過程,有效避免了傳統方法中多步驟處理帶來的誤差累積。
研究團隊構建了包含53000個高質量操作軌跡的龐大數據庫,覆蓋辦公軟件、編程工具、設計軟件等69種應用程序。每個軌跡都詳細記錄了從鼠標點擊到文本輸入的完整操作序列,相當于為AI提供了數字化的"操作說明書"。這些數據通過自動化流水線收集,結合人工標注的13.2萬個樣本,形成了超過63萬個狀態-動作-狀態三元組的訓練語料庫。
系統核心架構包含三個關鍵組件:動作分類器、坐標預測器和語言生成器。動作分類器能識別點擊、滾動等五種基本操作;坐標預測器將屏幕位置離散化為1000個整數區間,提升位置預測穩定性;語言生成器則專門處理文本輸入任務。這種模塊化設計使系統能夠精準解析各類復雜操作,在測試中達到91.6%的動作識別準確率和96.4%的動作類型識別準確率。
在實際應用中,W&L系統展現出強大的泛化能力。當需要執行新任務時,系統會從視頻平臺檢索相關教程,通過過濾機制篩選高質量內容后,利用逆向動力學模型將視頻轉換為可執行軌跡。這種自動化流程不僅適用于推理時的即時學習,還能通過監督微調持續提升模型性能。實驗表明,經過視頻軌跡訓練的開源模型Qwen 2.5-VL,在計算機操作任務上的成功率從1.9%躍升至13.0%。
基準測試顯示,W&L系統在多個領域表現優異。在Chrome瀏覽器配置、GIMP圖像處理等標準化操作場景中,系統能準確復現人類操作步驟;但在VS Code編程、系統級配置等需要復雜文本輸入或精細交互的任務中,性能仍有提升空間。研究團隊特別指出,當前系統尚不支持拖放操作,這主要受限于訓練數據中此類交互的稀缺性。
這項技術為軟件自動化領域帶來革命性突破。未來用戶可能只需演示操作過程,AI助手就能自動完成重復性任務,如數據整理、報表生成等。企業可通過分析專家操作視頻,構建智能知識庫實現經驗傳承;教育機構能開發自適應教學系統,根據學習者進度提供個性化指導。研究團隊正在探索將強化學習與視頻學習相結合,進一步提升系統的自適應能力。
盡管取得顯著進展,研究者坦言系統仍面臨多重挑戰。擴展動作空間以支持拖放等復雜操作、優化軌跡粒度以適應子任務學習、提升文本解碼準確性等,都是需要突破的技術瓶頸。如何確保系統學習到安全規范的操作模式,避免傳播錯誤行為,也是實際應用中必須解決的問題。這些挑戰為后續研究指明了方向,預示著人機協作將進入更加智能的新階段。










