當你對手機說“幫我訂一份明天的外賣”,是否幻想過有個無形助手能自動打開APP、選擇餐廳、完成支付?這種曾出現在科幻電影中的場景,正因阿里巴巴通義實驗室與浙江大學的聯合研究而逐漸成為現實。他們開發的UI-S1系統,讓AI首次具備了像人類一樣理解并操作手機界面的能力,這項突破性成果已發表于計算機學習領域頂級預印本平臺arXiv(論文編號:arXiv:2509.11543v1),代碼與論文資源可通過GitHub開源項目獲取。
傳統AI助手雖能回答語音指令,卻始終無法跨越“看懂屏幕”與“執行操作”的雙重門檻。要讓AI像人類一樣操作手機,需同時解決兩大難題:一是準確識別界面元素,二是規劃多步操作的邏輯鏈條。例如完成“在Markor應用創建文件并填寫Simple Gallery中收據信息”的任務,需經歷12個步驟的跨應用操作,這對AI的連續決策能力是極大考驗。
研究團隊提出的“半在線強化學習”方案,創造性地構建了介于模擬與真實之間的訓練環境。AI通過觀察真實操作記錄學習決策,但執行時需自主判斷。當系統檢測到錯誤操作,不會終止訓練,而是通過“補丁模塊”即時修正并引導后續流程。這種模式既避免了純模擬訓練的“紙上談兵”,又降低了真實環境試錯的高昂成本。實驗顯示,該方案使AI在復雜任務中的表現顯著提升:在AndroidWorld測試中準確率提高12%,AITW測試中提升23.8%。
技術實現的關鍵在于雙重機制的創新。研究團隊設計的獎勵系統不僅關注當前操作準確性,更評估其對后續步驟的影響,培養AI的“全局思維”。例如在跨應用任務中,AI需記住收據上的“2023-03-23, Monitor Stand, $33.22”等信息,并準確輸入到目標文件。配套的“半在線性能指標”評估體系,則通過模擬真實場景的干擾因素,更精準預測AI的實際應用能力。
基于70億參數的Qwen2.5VL模型構建的UI-S1,通過訓練方法創新實現了“小模型大作為”。消融實驗表明,未來獎勵機制對提升長期規劃能力至關重要,而雙層優勢函數設計則幫助AI平衡短期準確性與長期目標。研究團隊開發的多樣化糾錯策略中,簡單替換錯誤操作的方案在效率與效果間取得了最佳平衡,為實際應用提供了可行路徑。
這項突破的技術價值遠超實驗室范疇。對老年人而言,AI可簡化復雜操作流程;對視力障礙者,語音指令與界面操作的結合將大幅提升設備可用性;對職場人士,重復性任務自動化可釋放大量時間。研究團隊特別強調,該訓練框架具有跨領域遷移潛力,自動駕駛、工業機器人等需要連續決策的場景均可借鑒此類方法。
當前技術仍面臨三大挑戰:安全性方面需防范惡意操作風險,個性化方面要適配不同用戶習慣,可控性方面需確保操作符合用戶意圖。研究團隊在論文中坦承,現有方法在iOS系統適配及創造性任務處理上存在局限,例如無法完成需要情感判斷的交互。但這些不足恰恰為后續研究指明了方向——通過多模態感知增強與環境理解深化,AI有望突破現有能力邊界。
對于普通用戶而言,UI-S1的商業化應用仍需時日。研究團隊透露,下一步將重點優化異常處理機制,例如當APP界面更新導致操作失效時,AI能否自主調整策略。同時,隱私保護模塊的開發也在同步推進,通過差分隱私與聯邦學習技術,確保用戶數據在訓練過程中不被泄露。這些進展可通過GitHub項目持續跟蹤,為技術愛好者提供了深度參與的窗口。











