往期作者干貨:
如果你有一個能替你操作手機的 Agent,你會用它來做什么?
- 替自己回復微信消息?
- 下單中午想吃的外賣?
- 幫忙在多個電商平臺之間比價?
亦或是租房找房、旅行規(guī)劃,這些更加復雜的分析型任務?
已經(jīng)在嘗試做 Phone Use 通用 Agent 的團隊不少,有模型公司,也有更具備硬件權限優(yōu)勢的手機廠商。
看起來好像很酷,感覺“未來已來”。
但在這個夢想照進現(xiàn)實之前,我們或許該先問一個更實誠的問題:
本文僅意在對該場景下的 Agent 形態(tài)與應用方向展開討論,不進行任何指代
什么情況下,我們可能需要一個 Agent?
先不局限于 Phone Use,用 Agent 的需求出發(fā)點無外乎 “我不會”、“我現(xiàn)在不方便”、“我不想自己做” 三大場景。
我做了一張圖,用來劃分任務場景:
但細分到每個人,因為能力、時間精力的差異,同一項任務往往也會有不同的歸類。(注意,圖中是“想讓 Agent 做”,不意味著現(xiàn)在 AI 一定能做好)
舉一些 Phone Use 相關,大家能想到、且需求較為靠譜的 Agent 任務例子:
1)“我不會”:
一個適合 Agent 去“知識平權、科技向善”的敘事角度。
- 幫我們的父母長輩,在那些層級復雜的 App、小程序里完成線上掛號或水電費繳納;
- 或者,我們面對那些頭一次見的任務,需要 AI 代做一份新領域的調研報告,零代碼經(jīng)驗開發(fā)一個 APP,或是代辦不熟悉的便民服務。
- 是降低接入各類服務的門檻,是適老化,是讓更多不可能化為可能。
2)“我現(xiàn)在不方便”:
- 可能是在開車時,想要手機檢查微信中未讀的消息;
- 也可能在廚房中,滿手是油水混合物時,想要再次 check 小紅書中收藏的某個菜譜。
一人一雙手,手忙腳亂之時,自然想要外力幫助。
手機不在手邊,想要遠程開始播放音樂?還是算在“我不想自己做”中吧
3)“我不想自己做”:
我有空,也知道該怎么做,但就是因為“懶”、“怕麻煩”,不想自己操作,比如:
- 薅羊毛:每天在各個平臺,自動簽到、領京豆、金幣、澆水。你讓我自己去定時給平臺打工我肯定不樂意,但 AI 替我打工,每月能薅幾份免費水果,倒也不錯。
- 跨頁面對比:在購買某件商品之際,在淘寶、京東、拼多多之間橫跳比價;在出游遠行之前,對比到底是飛機 or 火車,哪個班次時間更合適、性價比最高。
- 信息整理:按攜程、滴滴打車、微信支付的消費記錄自動申請發(fā)票,并把郵箱里的發(fā)票無縫同步到報銷軟件里(或者只是單純幫自己記錄到記賬軟件中)(懂得都懂,報銷整理票據(jù)太麻煩了,怎么可以不算工時呢?)
上述場景的需求都是真實存在的。
我們當然會希望有個為我所用的“聰明勞動力”,外包那些我“不會”、“沒時間”、“不值得”的任務。
但 Phone Use Agent 方案,真能比人類自己操作,更勝任這些任務嗎?
在 Agent 賽道一路狂飆的這半年里,按照 Agent 執(zhí)行任務的“姿勢”,或者說它與軟件互動的方式,我們可以不嚴謹?shù)胤譃槿悾?/p>
- Function Call 類:通過預接入的 API,或者 MCP 等接口,與所需的資源與環(huán)境直接交互。比如 Deep Research 類產(chǎn)品、早期扣子空間、昆侖天工。
- 底層命令類:在一個有根權限的行動空間內,直接用底層命令調度資源、監(jiān)視進程。比如 Manus 的 Linux 沙箱。
- GUI 類:利用多模態(tài)大模型,通過對操作界面的視覺理解 + 模擬人類點擊、輸入,完成交互。
當然,現(xiàn)在在電腦、Web 端的 Agent,現(xiàn)在已經(jīng)大多使用了混合方案,模型會針對任務類型,自動決策執(zhí)行的方式,以起到效率優(yōu)化、成本控制、意外兜底的綜合目的)
其中 GUI 方案的 Agent,通過視覺理解 + 模擬人類操作,繞過對 API 的需求,實現(xiàn)對上個(互聯(lián)網(wǎng))時代的軟件交互,更像是一種“兜底”路線。
在 Phone Use 場景中,App 孤島的問題早就老生常談,沒有足夠的系統(tǒng)級進程權限時,GUI 方案實是無法打通 APP 生態(tài)后的妥協(xié):
(此前亦有 OPPO 與階躍合作的新聞,暫不知兩家研發(fā)深度與進度如何)
1)效率的局限:
無論是游戲影視(星際爭霸:“卡拉連接著我們”;修仙小說:“神識傳聲”),還是現(xiàn)實中的前沿探索(腦機接口),不難發(fā)現(xiàn)在我們的想象中,最高效的信息協(xié)作,是瞬間、海量的直接數(shù)據(jù)交互。
而讓一個 AI 去學習、理解、點擊一個為人類視覺和觸覺設計的圖形界面,本身就是在強迫數(shù)字生命去適配一個低效的交互方式。
這個形式下,信息交換緩慢、數(shù)據(jù)量局限、且極度易錯:
e.g. 你讓 AI 幫你去挑午餐外賣,請問它是下滑到第幾屏才算看的店鋪夠多了?(更別提我們有時候挑外賣能劃拉幾十屏,還是想不好吃什么)(不過感覺用 RL 訓練,好像可以避開回答這個主觀問題?)
2)生態(tài)的無奈:
在移動互聯(lián)網(wǎng)時代,各個 App、小程序 都是一個個封閉的數(shù)據(jù)孤島,它們并不對外開放自己的核心數(shù)據(jù)和功能接口。
連完善如微信、支付寶,也依然難以調動生態(tài)內小程序機構,主動開放可供 Agent 讀寫操作的后端 API。
所以 Agent 不得不“偽裝”成一個真實用戶,通過模擬點擊這種原始方式,去“看到”各個 App 內的數(shù)據(jù)與服務。
Phone Use Agent,反襯著當前 AI-Native 時代的尷尬:
我們有了越來越接近通用智能的 LLM,而 AI 還得用與原始人一樣的方式與世界交互:
一只眼睛、一根手指,模擬點點戳戳手機屏幕,不打直球,困難重重。
既然是“權宜之計”,為何在電腦側,云電腦 Agent、本地 Computer Use 類產(chǎn)品們,依然也用上了 GUI 策略,且用戶接受度還算不錯?
比如:云電腦 Agent:Manus;本地 Computer Use:Claude
除了本身電腦端應用更加復雜,使得 Agent 廠商不得不用 GUI 兜底以外。
個人的另一個觀點是:任務場景、用戶心態(tài)和風險承受度的不同。
云電腦、Computer Use Agent 的場景更多偏向生產(chǎn)力和工作。
在這類場景下:
① 任務目標通常更明確,對結果也更有預期:比如“幫我把這個文件夾里的文件批量改成另一個格式”、“上網(wǎng)調查 XX 主題,并幫我生成一份可視化網(wǎng)頁報告”
② 用戶對 AI 替自己干活的過程有更強的監(jiān)督意愿,對著電腦監(jiān)管也更加便利:對著電腦屏幕監(jiān)工,但凡 Agent 有些不對勁的行動,都能隨時中止任務,給出命令校準。
③ 任務類型也有區(qū)別:在電腦任務中,容錯率相對更高。調研不算成功,沒關系,我可以取其精華;AI Coding 了一堆 Bug,我也可以用 Git 回滾。損失的往往是時間,但很少直接關聯(lián)到個人資金和社交安全。
而 Phone Use 的場景,更多在于個人生活(點餐、購物、社交):
- 任務步驟一般顯著短于電腦上的工作任務:訂外賣、比價,其實要操作的步驟與信息量,遠低于 Deep Research。
- 任務過程充滿不確定性,同種任務之間也有大量細微差異:APP 的流氓彈窗,登錄、驗證與支付提示,商家活動變化等。
- 而用戶的心態(tài)則更加“犯懶”,希望能夠甩手不管,完成得越快越好:我們在讓 Agent 操作電腦時,還能玩手機摸魚打發(fā)時間;而讓 Agent 開始操作手機后,你會發(fā)現(xiàn)你的摸魚神器被 AI “鎖”住了進程,AI 用了“我”的手機,那我還能在這碎片時間干點啥?
- 更致命的是,手機是我們生活的個人信息與經(jīng)濟中樞,關聯(lián)著我們最敏感的社交關系、個人隱私和支付信息。
這些差異,反襯的是 Phone Use 通用 Agent 所面臨的窘境:
——手機用戶對任務一次性完成度的期望高,耐心最低,而潛在風險卻最大。
當 AI 能操作用戶最私密的終端設備,使用社交、網(wǎng)購賬號代發(fā)內容、代購商品時,亟待解決的是兩個信任問題:
1. 夠聰明(高效)嗎?
若是 Agent 泛化能力不夠、記憶力不足,太挑任務,就會導致用戶面臨“點一杯咖啡”、“淘寶和京東同商品比價”等需求時,還得測試、思考 Agent 的能力邊界。
這在 Deep Research 場景(知識工作者本來就要花很多精力做,對結果有開放性接受度) ,尚愿意花時間磨合。
但在日常任務中,“我現(xiàn)在不方便”、“我想別人替我做”的心態(tài)下,Agent 要是沒有按用戶預期操作過程執(zhí)行(繞彎路)、干到一半罷工、速度卡慢,那還真不如用戶自己手動操作來得利索。
BTW:Siri 淪為局限于“定鬧鐘”、“寫備忘”的語音工具,無外乎它在“不聰明”這一點,從來沒讓人失望過。
2. 夠安全嗎?
好吧,現(xiàn)在還是挺安全的,因為大部分任務執(zhí)行的泛化能力不強,往往不能自主完成全鏈路任務。
為了能讓 Agent 能幫忙做更多的事,我們不得不把自己的驗證碼、密碼提供給 AI or 替 AI 登錄。
理論上一個基于“視覺理解 + 模擬用戶點擊”的 Agent 能做到任何等同人類用戶權限的事。
我接受「輔助駕駛」的過程是這樣的:
先是試了幾次自動泊車,才在高架上“隨時準備踩剎車”地開啟高速領航,直到現(xiàn)在也不太能接受“城市內自動駕駛”。
一點點試探,并拒絕在覺得做的不那么好的場景下打開 AI 功能。車企就好在針對不同場景,都提供了單獨的 AI 功能開關,并且全程給你一個方向盤和剎車兜底。
但基于設備的通用 Agent 則完全不一樣了。
“用美團給自己點 1 杯瑞幸” or “用美團給全部門定下午茶”。
很明顯你會覺得前者是安全行為,買錯了也能接受;而后者則因為金額較高、責任較大,你會擔心它定錯了怎么辦。
然而,通常你賦予 Agent 前者的權利時(替它登錄了個人賬號),它也已經(jīng)有足夠的權限可能性完成其他“危險”任務。
在個人設備中可發(fā)生的 Agent 行為遠比“輔助駕駛”更加離散。
光是在一個登錄了賬號后的“Bilibili”里,AI 就能替你開視頻、點贊、投幣、評論、關注/取關、點廣告(點進一個“相親交友“廣告,就等著被機構電話騷擾兩年)。
我們不希望 AI 做出任何預期之外的代理行為,然而現(xiàn)在的通用 Agent 卻非常依賴“嘗試-反饋”的試錯循環(huán)。
AI 廠商亟待考慮在當下的技術水平下,落地有大量等同人類操作權限的 Agent 時,如何安全地限制、審查 Agent 行為,為極端情況兜上底。
……亦或是為 Agent 員工們開發(fā)一份“Agent 延誤&犯錯險”?
復制本文鏈接 文章為作者獨立觀點不代表優(yōu)設網(wǎng)立場,未經(jīng)允許不得轉載。
發(fā)評論!每天贏獎品
點擊 登錄 后,在評論區(qū)留言,系統(tǒng)會隨機派送獎品
2012年成立至今,是國內備受歡迎的設計師平臺,提供獎品贊助 聯(lián)系我們
AI輔助海報設計101例
已累計誕生 753 位幸運星
發(fā)表評論 為下方 4 條評論點贊,解鎖好運彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓