字節跳動近日推出了一款名為豆包手機助手的技術預覽版,這款產品憑借其突破性的功能設計,重新定義了手機語音助手的邊界。與傳統只能完成簡單指令的助手不同,豆包手機助手被賦予了視覺感知、長期記憶以及跨應用操作能力,甚至能夠深度理解并執行復雜任務,成為用戶手機中的“智能伙伴”。
該產品的核心亮點之一是端側記憶功能。通過在手機本地實現持久化存儲,豆包手機助手能夠像私人管家一樣記住用戶的日常細節。例如,當用戶詢問車位信息時,助手會直接調出之前拍攝的車位照片并標注樓層;在需要取快遞時,它能快速讀取短信中的取件碼;甚至在查詢高鐵座位時,也能自動翻找購票記錄提供準確信息。更令人驚喜的是,這種記憶具備聯想能力——若用戶曾表達過對梵高的喜愛,助手在規劃巴黎行程時,會優先推薦奧賽博物館的梵高特展。
跨應用操作能力則是豆包手機助手的另一大殺手锏。借助先進的GUI模擬點擊技術,它能夠像真人一樣接管屏幕,突破應用壁壘完成自動點擊、輸入和滑動。在購物場景中,用戶只需一句指令,助手即可在3秒內打開淘寶、京東、拼多多和抖音電商,比價后直接跳轉至最低價商品的支付頁面。在辦公場景中,它甚至能響應“幫我請三天假并訂回老家高鐵”的指令,自動填寫請假單、提交審批,隨后無縫跳轉至12306完成訂票和付款。對于特斯拉車主,一句“打開前備箱放東西”即可實現遠程車輛控制。
多模態交互方面,豆包手機助手展現了強大的實時視覺理解能力。當用戶將英文繪本對準攝像頭時,助手會立即啟動視頻通話模式,畫面中同步顯示中英雙語字幕,AI用流利的普通話或英語講述故事并與用戶互動提問。更有趣的是,它能根據孩子的反應臨時改編劇情,讓閱讀過程充滿趣味性。例如,若孩子對某個角色表現出興趣,助手會即興擴展相關情節,提升互動體驗。
針對復雜的長鏈條需求,豆包手機助手引入了Pro模式。該模式整合了GUI模擬點擊、API工具調用和超強推理能力,能夠完成以往AI難以處理的任務。以巴黎旅行為例,用戶只需模糊表達“下個月去巴黎,把收藏的餐廳標到地圖上,再幫我訂一張有我喜歡展覽的博物館票”,助手便會自動執行全流程:確認用戶喜愛梵高后,搜索奧賽博物館的梵高特展信息,打開地圖應用標記收藏的米其林餐廳,最后跳轉官網搶票并生成行程單推送至備忘錄。
在隱私保護方面,字節跳動采取了嚴格措施。所有記憶數據均在手機本地進行處理和加密存儲,絕不上傳至云端。用戶擁有完全控制權,可隨時在設置中一鍵關閉記憶功能。這種設計既確保了智能體驗的流暢性,又為用戶提供了可信賴的隱私保障,為AI時代的隱私保護提供了新思路。









