字節(jié)跳動近日推出了一款名為豆包手機(jī)助手的技術(shù)預(yù)覽版應(yīng)用,這款產(chǎn)品被業(yè)界視為手機(jī)智能助手領(lǐng)域的重大突破。與傳統(tǒng)語音助手僅能完成簡單任務(wù)不同,豆包手機(jī)助手被賦予了“手機(jī)第二大腦”的定位,其核心能力包括視覺感知、長期記憶以及跨應(yīng)用操作,甚至能夠深度理解并執(zhí)行復(fù)雜指令。
該助手最顯著的創(chuàng)新在于實(shí)現(xiàn)了真正的端側(cè)記憶功能。通過手機(jī)本地化存儲與加密技術(shù),它能持續(xù)記錄用戶的生活細(xì)節(jié),并在需要時(shí)精準(zhǔn)調(diào)用。例如,當(dāng)用戶詢問車輛停放位置時(shí),助手可自動調(diào)取上次拍攝的車位照片并顯示樓層信息;在處理快遞取件時(shí),它能快速掃描短信記錄并報(bào)出取件碼;甚至在查詢高鐵座位時(shí),能直接翻找12306購票記錄提供準(zhǔn)確信息。更智能的是,這種記憶具備聯(lián)想能力——若用戶曾表達(dá)過對梵高的喜愛,助手在規(guī)劃巴黎行程時(shí)便會優(yōu)先推薦奧賽博物館。
跨應(yīng)用操作能力則是豆包手機(jī)助手的另一大亮點(diǎn)。基于先進(jìn)的GUI模擬點(diǎn)擊技術(shù),它能像真人一樣操控屏幕,突破應(yīng)用邊界完成自動化任務(wù)。在購物場景中,用戶只需發(fā)出“全網(wǎng)比價(jià)”指令,助手即可在3秒內(nèi)打開淘寶、京東、拼多多和抖音電商,對比價(jià)格后直接跳轉(zhuǎn)至最低價(jià)商品的支付頁面。在辦公場景中,它可響應(yīng)“請三天假并訂回老家高鐵”的復(fù)合指令,自動填寫請假單、提交審批,隨后無縫完成車票預(yù)訂與支付。特斯拉車主甚至能通過語音指令遠(yuǎn)程控制車輛打開前備箱。
針對復(fù)雜長鏈條需求,豆包手機(jī)助手引入了Pro模式。該模式整合了GUI模擬點(diǎn)擊、API工具調(diào)用與超強(qiáng)推理能力,可處理傳統(tǒng)AI難以完成的任務(wù)。以巴黎旅行為例,用戶只需模糊表達(dá)“下個(gè)月去巴黎,把收藏餐廳標(biāo)到地圖上,再訂一張有我喜歡展覽的博物館票”,助手便能自動執(zhí)行全流程:確認(rèn)用戶對梵高的偏好后,搜索奧賽博物館的梵高特展信息,將收藏的米其林餐廳標(biāo)注在地圖上,最后跳轉(zhuǎn)官網(wǎng)搶票并生成行程單推送至備忘錄。
在多模態(tài)交互方面,助手展現(xiàn)了實(shí)時(shí)視覺理解能力。當(dāng)用戶將英文繪本對準(zhǔn)攝像頭時(shí),助手會立即啟動實(shí)時(shí)視頻通話模式,畫面中同步顯示中英雙語字幕,AI不僅能用流利的中英文講述故事,還能根據(jù)用戶反應(yīng)臨時(shí)改編劇情,使閱讀過程更具互動性。例如,若孩子對某個(gè)情節(jié)表現(xiàn)出興趣,AI會即時(shí)調(diào)整故事走向,增加趣味性提問或延伸內(nèi)容。
隱私安全是豆包手機(jī)助手的核心設(shè)計(jì)原則。官方強(qiáng)調(diào),所有記憶數(shù)據(jù)均在手機(jī)本地完成處理與加密存儲,絕不會上傳至云端。用戶擁有完全控制權(quán),可隨時(shí)在設(shè)置中一鍵關(guān)閉記憶功能。這種設(shè)計(jì)在保障智能化體驗(yàn)的同時(shí),為用戶提供了可信賴的隱私保護(hù)方案,為AI時(shí)代的數(shù)據(jù)安全提供了新的實(shí)踐路徑。









