人工智能領域迎來突破性進展——由北京理工大學等多家機構聯合研發的GUI智能體訓練框架DART,成功讓AI具備像人類一樣操作電腦的能力。這項發表于arXiv平臺的研究(編號2509.23866v1),通過創新性架構設計使AI訓練效率提升數倍,在復雜軟件操作任務中展現出驚人表現。
傳統AI訓練如同單線程工廠,每個環節必須按順序完成:觀察屏幕、分析決策、執行操作、等待反饋。研究團隊形象地比喻這種模式如同廚師獨自完成整道菜品制作,在等待水燒開或食材烹飪的間隙完全閑置。DART框架通過將訓練過程解構為環境集群、推理服務、數據管理和訓練器四大模塊,實現了多線程并行作業,如同將手工作坊升級為現代化智能工廠。
在技術實現層面,研究團隊構建了包含180個虛擬Ubuntu環境的計算集群,配合多GPU推理服務器和智能數據管理系統。環境集群持續運行各類軟件任務,推理服務實時處理決策請求,數據管理系統精準調度訓練數據,訓練器則持續優化模型參數。這種架構使GPU利用率提升1.6倍,訓練吞吐量提高1.9倍,環境資源利用率更是達到傳統方法的5.5倍。
針對訓練數據質量參差不齊的問題,研究團隊設計了多層次自適應策略。在任務層面,系統動態調整練習頻率,當AI對某任務掌握度超過60%時自動減少訓練量;在操作軌跡層面,根據任務復雜度設置個性化步驟限制;在關鍵決策點層面,采用高熵驅動策略重點訓練不確定性高的操作步驟。特別設計的經驗軌跡池,通過預存成功案例幫助AI攻克復雜任務,如同為學生提供標準答案參考。
在OSWorld基準測試中,基于UI-TARS-1.5-7B模型優化的DART-GUI-7B展現出卓越性能。該模型在僅允許30步操作的嚴格限制下,達到42.13%的任務完成率,較基礎模型提升14.61個百分點,超越此前最優開源模型7.34個百分點。具體案例顯示,在VS Code配置任務中,AI能準確找到"編輯器換行列數"而非錯誤修改"HTML格式換行長度";在LibreOffice文檔編輯中,精確選中需要下標的"2"而非整個"H2O"文本。
技術細節方面,研究團隊采用Kubernetes容器技術管理虛擬環境,通過vLLM推理引擎優化決策處理。構建的MySQL中央數據庫包含11個關聯數據表,完整記錄每次操作細節。分布對齊技術解決了推理與訓練環節的"表達差異"問題,確保模型學習過程的一致性。動態軌跡調節機制根據實時成功率自動調整采樣頻次,使計算資源始終聚焦于最需改進的任務。
盡管在Chrome瀏覽器"請勿跟蹤"設置等復雜任務中仍存在操作偏差,但研究團隊強調DART框架的核心價值在于提供可擴展的訓練基礎設施。開源的訓練框架、數據集和模型檢查點,為學術界和產業界提供了重要資源。該技術對普通用戶意味著自動化文件處理、數據備份等重復操作將成為現實;對企業用戶可顯著提升辦公效率;對殘障人士則能通過語音指令完成復雜軟件操作,大幅提高數字化工具的可訪問性。
在問答環節,研究人員解釋了DART-GUI-7B的獨特優勢:其去耦合架構使四個訓練模塊可獨立運行,避免傳統方法的等待損耗;軌跡級采樣技術允許AI即時獲得操作反饋,無需等待批量任務完成;按工作者更新機制實現模型局部優化,保持訓練過程連續性。這些創新使AI在30步操作限制下,達到其他模型100步才能實現的性能水平。











