如果有一個能替你操作手機的Agent,你會用它做什么?

往期作者干貨:

如果你有一個能替你操作手機的 Agent,你會用它來做什么?

  1. 替自己回復微信消息?
  2. 下單中午想吃的外賣?
  3. 幫忙在多個電商平臺之間比價?

亦或是租房找房、旅行規(guī)劃,這些更加復雜的分析型任務?

已經(jīng)在嘗試做 Phone Use 通用 Agent 的團隊不少,有模型公司,也有更具備硬件權限優(yōu)勢的手機廠商。

看起來好像很酷,感覺“未來已來”。

但在這個夢想照進現(xiàn)實之前,我們或許該先問一個更實誠的問題:

什么情況下,我們會真的習慣讓 AI 來替我們操作“手機”?

本文僅意在對該場景下的 Agent 形態(tài)與應用方向展開討論,不進行任何指代

什么情況下,我們可能需要一個 Agent?

先不局限于 Phone Use,用 Agent 的需求出發(fā)點無外乎 “我不會”、“我現(xiàn)在不方便”、“我不想自己做” 三大場景。

我做了一張圖,用來劃分任務場景:

如果有一個能替你操作手機的Agent,你會用它做什么?

但細分到每個人,因為能力、時間精力的差異,同一項任務往往也會有不同的歸類。(注意,圖中是“想讓 Agent 做”,不意味著現(xiàn)在 AI 一定能做好)

舉一些 Phone Use 相關,大家能想到、且需求較為靠譜的 Agent 任務例子:

1)“我不會”:

一個適合 Agent 去“知識平權、科技向善”的敘事角度。

  1. 幫我們的父母長輩,在那些層級復雜的 App、小程序里完成線上掛號或水電費繳納;
  2. 或者,我們面對那些頭一次見的任務,需要 AI 代做一份新領域的調研報告,零代碼經(jīng)驗開發(fā)一個 APP,或是代辦不熟悉的便民服務。
  3. 是降低接入各類服務的門檻,是適老化,是讓更多不可能化為可能。

2)“我現(xiàn)在不方便”:

  1. 可能是在開車時,想要手機檢查微信中未讀的消息;
  2. 也可能在廚房中,滿手是油水混合物時,想要再次 check 小紅書中收藏的某個菜譜。

一人一雙手,手忙腳亂之時,自然想要外力幫助。

手機不在手邊,想要遠程開始播放音樂?還是算在“我不想自己做”中吧

3)“我不想自己做”:

我有空,也知道該怎么做,但就是因為“懶”、“怕麻煩”,不想自己操作,比如:

  1. 薅羊毛:每天在各個平臺,自動簽到、領京豆、金幣、澆水。你讓我自己去定時給平臺打工我肯定不樂意,但 AI 替我打工,每月能薅幾份免費水果,倒也不錯。
  2. 跨頁面對比:在購買某件商品之際,在淘寶、京東、拼多多之間橫跳比價;在出游遠行之前,對比到底是飛機 or 火車,哪個班次時間更合適、性價比最高。
  3. 信息整理:按攜程、滴滴打車、微信支付的消費記錄自動申請發(fā)票,并把郵箱里的發(fā)票無縫同步到報銷軟件里(或者只是單純幫自己記錄到記賬軟件中)(懂得都懂,報銷整理票據(jù)太麻煩了,怎么可以不算工時呢?)

上述場景的需求都是真實存在的。

我們當然會希望有個為我所用的“聰明勞動力”,外包那些我“不會”、“沒時間”、“不值得”的任務。

但 Phone Use Agent 方案,真能比人類自己操作,更勝任這些任務嗎?

Phone Use 方案的局限與無奈

在 Agent 賽道一路狂飆的這半年里,按照 Agent 執(zhí)行任務的“姿勢”,或者說它與軟件互動的方式,我們可以不嚴謹?shù)胤譃槿悾?/p>

如果有一個能替你操作手機的Agent,你會用它做什么?

  1. Function Call 類:通過預接入的 API,或者 MCP 等接口,與所需的資源與環(huán)境直接交互。比如 Deep Research 類產(chǎn)品、早期扣子空間、昆侖天工。
  2. 底層命令類:在一個有根權限的行動空間內,直接用底層命令調度資源、監(jiān)視進程。比如 Manus 的 Linux 沙箱。
  3. GUI 類:利用多模態(tài)大模型,通過對操作界面的視覺理解 + 模擬人類點擊、輸入,完成交互。

當然,現(xiàn)在在電腦、Web 端的 Agent,現(xiàn)在已經(jīng)大多使用了混合方案,模型會針對任務類型,自動決策執(zhí)行的方式,以起到效率優(yōu)化、成本控制、意外兜底的綜合目的)

其中 GUI 方案的 Agent,通過視覺理解 + 模擬人類操作,繞過對 API 的需求,實現(xiàn)對上個(互聯(lián)網(wǎng))時代的軟件交互,更像是一種“兜底”路線。

在 Phone Use 場景中,App 孤島的問題早就老生常談,沒有足夠的系統(tǒng)級進程權限時,GUI 方案實是無法打通 APP 生態(tài)后的妥協(xié):

(此前亦有 OPPO 與階躍合作的新聞,暫不知兩家研發(fā)深度與進度如何)

如果有一個能替你操作手機的Agent,你會用它做什么?

1)效率的局限:

無論是游戲影視(星際爭霸:“卡拉連接著我們”;修仙小說:“神識傳聲”),還是現(xiàn)實中的前沿探索(腦機接口),不難發(fā)現(xiàn)在我們的想象中,最高效的信息協(xié)作,是瞬間、海量的直接數(shù)據(jù)交互。

而讓一個 AI 去學習、理解、點擊一個為人類視覺和觸覺設計的圖形界面,本身就是在強迫數(shù)字生命去適配一個低效的交互方式。

這個形式下,信息交換緩慢、數(shù)據(jù)量局限、且極度易錯:

e.g. 你讓 AI 幫你去挑午餐外賣,請問它是下滑到第幾屏才算看的店鋪夠多了?(更別提我們有時候挑外賣能劃拉幾十屏,還是想不好吃什么)(不過感覺用 RL 訓練,好像可以避開回答這個主觀問題?)

2)生態(tài)的無奈:

在移動互聯(lián)網(wǎng)時代,各個 App、小程序 都是一個個封閉的數(shù)據(jù)孤島,它們并不對外開放自己的核心數(shù)據(jù)和功能接口。

連完善如微信、支付寶,也依然難以調動生態(tài)內小程序機構,主動開放可供 Agent 讀寫操作的后端 API。

所以 Agent 不得不“偽裝”成一個真實用戶,通過模擬點擊這種原始方式,去“看到”各個 App 內的數(shù)據(jù)與服務。

Phone Use Agent,反襯著當前 AI-Native 時代的尷尬:

我們有了越來越接近通用智能的 LLM,而 AI 還得用與原始人一樣的方式與世界交互:

一只眼睛、一根手指,模擬點點戳戳手機屏幕,不打直球,困難重重。

為什么云電腦 Agent、Computer Use 還可以?

既然是“權宜之計”,為何在電腦側,云電腦 Agent、本地 Computer Use 類產(chǎn)品們,依然也用上了 GUI 策略,且用戶接受度還算不錯?

比如:云電腦 Agent:Manus;本地 Computer Use:Claude

除了本身電腦端應用更加復雜,使得 Agent 廠商不得不用 GUI 兜底以外。

個人的另一個觀點是:任務場景、用戶心態(tài)和風險承受度的不同。

如果有一個能替你操作手機的Agent,你會用它做什么?

云電腦、Computer Use Agent 的場景更多偏向生產(chǎn)力和工作。

在這類場景下:

① 任務目標通常更明確,對結果也更有預期:比如“幫我把這個文件夾里的文件批量改成另一個格式”、“上網(wǎng)調查 XX 主題,并幫我生成一份可視化網(wǎng)頁報告”

如果有一個能替你操作手機的Agent,你會用它做什么?

② 用戶對 AI 替自己干活的過程有更強的監(jiān)督意愿,對著電腦監(jiān)管也更加便利:對著電腦屏幕監(jiān)工,但凡 Agent 有些不對勁的行動,都能隨時中止任務,給出命令校準。

③ 任務類型也有區(qū)別:在電腦任務中,容錯率相對更高。調研不算成功,沒關系,我可以取其精華;AI Coding 了一堆 Bug,我也可以用 Git 回滾。損失的往往是時間,但很少直接關聯(lián)到個人資金和社交安全。

而 Phone Use 的場景,更多在于個人生活(點餐、購物、社交):

  1. 任務步驟一般顯著短于電腦上的工作任務:訂外賣、比價,其實要操作的步驟與信息量,遠低于 Deep Research。
  2. 任務過程充滿不確定性,同種任務之間也有大量細微差異:APP 的流氓彈窗,登錄、驗證與支付提示,商家活動變化等。
  3. 而用戶的心態(tài)則更加“犯懶”,希望能夠甩手不管,完成得越快越好:我們在讓 Agent 操作電腦時,還能玩手機摸魚打發(fā)時間;而讓 Agent 開始操作手機后,你會發(fā)現(xiàn)你的摸魚神器被 AI “鎖”住了進程,AI 用了“我”的手機,那我還能在這碎片時間干點啥?
  4. 更致命的是,手機是我們生活的個人信息與經(jīng)濟中樞,關聯(lián)著我們最敏感的社交關系、個人隱私和支付信息。

這些差異,反襯的是 Phone Use 通用 Agent 所面臨的窘境:

——手機用戶對任務一次性完成度的期望高,耐心最低,而潛在風險卻最大。

最后,Phone Use Agent 面臨的信任問題

當 AI 能操作用戶最私密的終端設備,使用社交、網(wǎng)購賬號代發(fā)內容、代購商品時,亟待解決的是兩個信任問題:

1. 夠聰明(高效)嗎?

若是 Agent 泛化能力不夠、記憶力不足,太挑任務,就會導致用戶面臨“點一杯咖啡”、“淘寶和京東同商品比價”等需求時,還得測試、思考 Agent 的能力邊界。

這在 Deep Research 場景(知識工作者本來就要花很多精力做,對結果有開放性接受度) ,尚愿意花時間磨合。

但在日常任務中,“我現(xiàn)在不方便”、“我想別人替我做”的心態(tài)下,Agent 要是沒有按用戶預期操作過程執(zhí)行(繞彎路)、干到一半罷工、速度卡慢,那還真不如用戶自己手動操作來得利索。

如果有一個能替你操作手機的Agent,你會用它做什么?

BTW:Siri 淪為局限于“定鬧鐘”、“寫備忘”的語音工具,無外乎它在“不聰明”這一點,從來沒讓人失望過。

2. 夠安全嗎?

好吧,現(xiàn)在還是挺安全的,因為大部分任務執(zhí)行的泛化能力不強,往往不能自主完成全鏈路任務。

為了能讓 Agent 能幫忙做更多的事,我們不得不把自己的驗證碼、密碼提供給 AI or 替 AI 登錄。

理論上一個基于“視覺理解 + 模擬用戶點擊”的 Agent 能做到任何等同人類用戶權限的事。

我接受「輔助駕駛」的過程是這樣的:

先是試了幾次自動泊車,才在高架上“隨時準備踩剎車”地開啟高速領航,直到現(xiàn)在也不太能接受“城市內自動駕駛”。

一點點試探,并拒絕在覺得做的不那么好的場景下打開 AI 功能。車企就好在針對不同場景,都提供了單獨的 AI 功能開關,并且全程給你一個方向盤和剎車兜底。

但基于設備的通用 Agent 則完全不一樣了。

“用美團給自己點 1 杯瑞幸” or “用美團給全部門定下午茶”。

很明顯你會覺得前者是安全行為,買錯了也能接受;而后者則因為金額較高、責任較大,你會擔心它定錯了怎么辦。

然而,通常你賦予 Agent 前者的權利時(替它登錄了個人賬號),它也已經(jīng)有足夠的權限可能性完成其他“危險”任務。

如果有一個能替你操作手機的Agent,你會用它做什么?

在個人設備中可發(fā)生的 Agent 行為遠比“輔助駕駛”更加離散。

光是在一個登錄了賬號后的“Bilibili”里,AI 就能替你開視頻、點贊、投幣、評論、關注/取關、點廣告(點進一個“相親交友“廣告,就等著被機構電話騷擾兩年)。

我們不希望 AI 做出任何預期之外的代理行為,然而現(xiàn)在的通用 Agent 卻非常依賴“嘗試-反饋”的試錯循環(huán)。

AI 廠商亟待考慮在當下的技術水平下,落地有大量等同人類操作權限的 Agent 時,如何安全地限制、審查 Agent 行為,為極端情況兜上底。

……亦或是為 Agent 員工們開發(fā)一份“Agent 延誤&犯錯險”?

收藏 3
點贊 39

復制本文鏈接 文章為作者獨立觀點不代表優(yōu)設網(wǎng)立場,未經(jīng)允許不得轉載。