飛行者聯(lián)盟 › 門戶 ›新聞資訊› 模擬飛行 › 查看內(nèi)容

你的榮耀手機(jī)學(xué)會(huì)「點(diǎn)屏幕」了，為什么笨 AI 也有未來？

2025-3-14 16:12| 發(fā)布者: 8Bobo8Jun 671 0

摘要: 在移動(dòng)世界通信大會(huì) MWC 2025 上，我們看到榮耀和訂餐訂位產(chǎn)品 OpenTable 做的一次演示：用戶用語音命令手機(jī) AI 助理找家西班牙餐館訂個(gè)位，接著就看到手機(jī)屏幕被「接管」，一通自己操作。這個(gè) MWC 版本的演示，其實(shí) ...

在移動(dòng)世界通信大會(huì) MWC 2025 上，我們看到榮耀和訂餐訂位產(chǎn)品 OpenTable 做的一次演示：用戶用語音命令手機(jī) AI 助理找家西班牙餐館訂個(gè)位，接著就看到手機(jī)屏幕被「接管」，一通自己操作。

這個(gè) MWC 版本的演示，其實(shí)和榮耀去年 Magic 7 Pro 發(fā)布會(huì)上策劃的那次「行為藝術(shù)」，是同一件事。

當(dāng)時(shí)在深圳的發(fā)布會(huì)上，時(shí)任榮耀 CEO 的趙明指揮 AI Agent YOYO 打開美團(tuán)。他的手沒動(dòng)，而是 YOYO 自己在屏幕上點(diǎn)來點(diǎn)去，一家店點(diǎn)了幾十杯飲料，支付，循環(huán)到下一家，繼續(xù)點(diǎn)，再循環(huán)，重復(fù)操作——直到最后下單了總共 2000 杯左右。

一通操作過后，深圳發(fā)布會(huì)場地周邊的瑞幸門店紛紛「爆單」，門店咖啡師忙到崩潰，接到訂單的騎手更是在門店排起長隊(duì)。

這次效果顯著卻略帶荒誕意味的事件營銷，一定程度上讓公眾忽略了榮耀試圖展示的核心技術(shù)：「基于 GUI 的個(gè)人 AI 智能體」。

時(shí)至今日，AI Agent 功能確實(shí)已經(jīng)不新鮮了。而這個(gè)技術(shù)的關(guān)鍵點(diǎn)，在「GUI」這三個(gè)字上。

GUI 全稱 Graphical User Interface，圖形用戶界面。作為一個(gè)基于 GUI 的 AI Agent，YOYO 不再依賴傳統(tǒng)的 API 接口，而是有了一只虛擬的「手」，直接在代替用戶進(jìn)行圖形界面操作。整個(gè)代行操作不在「后臺(tái)」，而是直接在「前臺(tái)」，在用戶的眼皮底下實(shí)時(shí)發(fā)生。

需要澄清的是：Magic 7 Pro 市售機(jī)型用戶的體驗(yàn)可能會(huì)與發(fā)布會(huì)演示存在差異。據(jù)財(cái)聯(lián)社報(bào)道，當(dāng)時(shí)現(xiàn)場演示用的測試機(jī)權(quán)限更高，能夠自動(dòng)免密支付和循環(huán)點(diǎn)單，這才不停地點(diǎn)出了2000杯飲料。至少在目前，市售機(jī)型需要用戶明確告知點(diǎn)單細(xì)節(jié)（例如品牌、品名、杯型、溫度等），并且在支付環(huán)節(jié)需要用戶接管確認(rèn)。

這個(gè)細(xì)節(jié)確實(shí)重要，但也不至于抹殺這項(xiàng)技術(shù)的存在意義。正相反，我們認(rèn)為，「基于 GUI」是個(gè)很另類，很有趣，頗具試驗(yàn)性的 AI Agent實(shí)現(xiàn)路徑。

AI Agent 交互的「前臺(tái)」新路

榮耀 YOYO 的核心是多模態(tài)模型，GUI 交互的本質(zhì)是語言視覺的理解。

你的榮耀手機(jī)學(xué)會(huì)「點(diǎn)屏幕」了，為什么笨 AI 也有未來？

自然語言處理 (NLP)：理解「點(diǎn)一杯冰美式」的指令；
屏幕狀態(tài)感知：識(shí)別當(dāng)前界面中的內(nèi)容，找到正確的按鈕、輸入框等界面元素；
擬人化操作：像人類一樣點(diǎn)擊按鈕、輸入信息；
循環(huán)操作：在新的界面中持續(xù)解析內(nèi)容、定位和點(diǎn)擊界面元素。

關(guān)于 GUI 的操作部分，這最后一步具體是怎樣實(shí)現(xiàn)的，榮耀方面沒有明確透露。一種穩(wěn)妥的猜測是：它能夠獲得手機(jī)的無障礙功能 (accessibility features) 或類似的底層權(quán)限，從而控制屏幕點(diǎn)擊事件。

這最后一步并不是什么難事，甚至比前面幾步都簡單得多。但除了此前智譜的 AutoGLM 等極少數(shù)之外，確實(shí)很少有其它第三方開發(fā)者和終端廠商在走 GUI 交互的路徑。

在過去，虛擬助理控制軟件和智能硬件的方式主要是通過 API 調(diào)用以及物聯(lián)網(wǎng)協(xié)議。這可以理解為一種純數(shù)字 (digital) 的通訊方式。

今年一月，谷歌在三星的指定機(jī)型上激活了基于 Gemini 2.0 的 AI Agent 功能。這次合作也是通過 API 或類似方式實(shí)現(xiàn)的（谷歌稱之為 Gemini 擴(kuò)展），初期僅支持 Gmail、谷歌地圖、三星日歷、三星時(shí)鐘等第一方應(yīng)用，以及 Spotify 等極少量第三方應(yīng)用。

想要做到規(guī)模化，擴(kuò)充支持的應(yīng)用，需要開發(fā)者做一定量的 API 接入工作，同時(shí)也需要用戶許可使用 Gemini 擴(kuò)展。

你的榮耀手機(jī)學(xué)會(huì)「點(diǎn)屏幕」了，為什么笨 AI 也有未來？

Gemini 控制手機(jī)演示圖源：Google

谷歌依賴 API 調(diào)用后臺(tái)接口，而榮耀通過 GUI 模擬前臺(tái)操作，二者在實(shí)現(xiàn)邏輯上形成了明顯區(qū)別。后者的好處，在于可以規(guī)避 API 調(diào)用這一常規(guī)方式，繞過了其背后的商業(yè)博弈和數(shù)據(jù)成本，也可以更快、更容易地?cái)U(kuò)充支持的應(yīng)用，實(shí)現(xiàn)規(guī)模化并改善用戶體驗(yàn)。

成本是個(gè)關(guān)鍵問題。一方面是云服務(wù)費(fèi)用，因?yàn)闊o論是 API 提供方還是調(diào)用方都需要運(yùn)行服務(wù)器來進(jìn)行操作。另一方面，通過 API 交換的數(shù)據(jù)也具有價(jià)值，因此具有更高數(shù)據(jù)價(jià)值的 API，往往收費(fèi)也更高。

以美團(tuán)舉例，其訂單服務(wù)在內(nèi)的基礎(chǔ) API 收費(fèi)標(biāo)準(zhǔn)為每百次調(diào)用0.15元（前百萬次免費(fèi)）。這還只是基礎(chǔ)類 API，如果涉及價(jià)值更高的管理類 API，調(diào)用收費(fèi)提高到每百次0.3元，且無免費(fèi)額度。

另外，API 的使用也暗含著一些隱性的商業(yè)競爭要素。調(diào)用方獲得了數(shù)據(jù)，同時(shí)也在向提供方發(fā)送數(shù)據(jù)，而不排除在特定條件下，雙方都不希望肥水流向外人田。

而在基于 GUI 的方案下，至少就目前的演示效果來看，榮耀既不需要向美團(tuán)支付 API 費(fèi)用，雙方也無需擔(dān)心數(shù)據(jù)的歸屬，包括與之關(guān)聯(lián)的隱私安全等問題。

AI Agent 只是在「模仿人類」點(diǎn)擊屏幕，多么原始卻有效的交互方式。

回歸模擬，返璞歸真

這種「返祖」式技術(shù)路徑，讓人聯(lián)想到谷歌在2018年推出的 AI 電話助手Duplex。

Duplex 的思路在當(dāng)時(shí)同樣有點(diǎn)腦洞清奇：谷歌合成了一個(gè) AI 語音，替用戶給餐館打電話訂位。這個(gè) AI 語音聽起來并不生硬，甚至能夠模仿真人的口音、語速、語調(diào)，以及加入「嗯」、「you know」之類的填充詞。

你的榮耀手機(jī)學(xué)會(huì)「點(diǎn)屏幕」了，為什么笨 AI 也有未來？

Duplex 技術(shù)演示圖源：Google

今時(shí)今日，AI 生成語音已經(jīng)徹底「污染」了電銷和客服行業(yè)，讓人感到厭煩。但至少在當(dāng)時(shí)，用頂尖的 NLP和語音合成技術(shù)，通過「打電話」這種模擬人類的方式訂餐，這種另類的，從數(shù)字到模擬 (analog) 的交互方式，確實(shí)令人耳目一新。

目前榮耀正在推進(jìn)的基于 GUI 的 AI Agent，在我看來同樣屬于一種從數(shù)字到模擬的實(shí)現(xiàn)方式，用原始與先進(jìn)相結(jié)合的思路，帶來了全新的可能性。

基于 GUI 不一定是實(shí)現(xiàn)手機(jī) AI Agent 的最佳路徑，但不可否認(rèn)它確實(shí)很有趣，甚至有點(diǎn)「硬來」的意思。

對(duì)于用戶來說，使喚這樣的 AI Agent沒有學(xué)習(xí)成本，不需要研究提示語法；
而對(duì)于第三方應(yīng)用和服務(wù)平臺(tái)來說，也幾乎不需要額外的開發(fā)成本就可以接入。甚至反過來看，它們也無法拒絕被「接入」，因?yàn)閴焊蜎]有發(fā)生真正意義上的「接入」行為。至少以 Android 目前的沙箱機(jī)制來看，應(yīng)用層不太能夠「抵抗」系統(tǒng)底層的行為。

基于 GUI 的 AI Agent，既是一種對(duì)傳統(tǒng)人機(jī)交互的致敬，也為 AI Agent 的落地和體驗(yàn)提升，提供了一種降低門檻、提高兼容性的路徑。

有時(shí)候，最趁手的工具，真就只是一根干凈簡潔的大棒。

你的榮耀手機(jī)學(xué)會(huì)「點(diǎn)屏幕」了，為什么笨 AI 也有未來？

大模型與人機(jī)交互結(jié)合，「笨」AI 也有未來

在今天用戶的主要需求場景上，有兩種 AI Agent。一種是高智商型，能夠解答復(fù)雜問題，完成困難的工作，比如 DeepSeek、Claude、以及前幾天大熱門的 Manus。這也是現(xiàn)在最流行最受關(guān)注的 AI Agent/Chatbot種類。

但我們同樣需要另一種懂事能干的 AI Agent，它對(duì)用戶的使用技巧沒有很高的門檻，用戶只要輸入一兩句簡單直白的命令，它就能理解，并且把各種并不復(fù)雜的事給辦好。

今天可以點(diǎn)外賣，將來它還能夠幫你掛機(jī)放置類游戲，給指定好友的朋友圈點(diǎn)贊，甚至自動(dòng)把剛拍下的一張照片修改一下發(fā)到社交網(wǎng)絡(luò)。只要是用戶能做的，基于 GUI 的 AI agent一樣能做。門檻低，上限高，適應(yīng)性強(qiáng)，用起來更順手，可能是這一類 AI Agent的主要特色。

這類選手不需要成為理解世界的大學(xué)者，只當(dāng)好執(zhí)行任務(wù)的工具人就足矣。

2013年的電影《云端情人》(Her)，曾經(jīng)賦予人們展開無限的遐想。當(dāng)時(shí)也正值 NLP 技術(shù)大爆發(fā)，許多優(yōu)秀的語音場景產(chǎn)品和技術(shù)涌現(xiàn)出來。一些研究者和從業(yè)者篤信，自然語言對(duì)話將會(huì)成為 AI 交流的最主流方式。

然而去年曇花一現(xiàn)的硬件產(chǎn)品 AI Pin，以及開發(fā)它的 Humane 公司越走越黑的路，不禁令人懷疑《云端情人》設(shè)想的烏托邦是否那般美好，語音究竟是不是 Chatbot/Agent的終極答案。

Humane AI Pin 圖源：Humane

進(jìn)入觸屏?xí)r代，交互的門檻顯著降低，以至于幼兒也能輕松地掌握。按照 AI 開發(fā)者們經(jīng)常采用的比喻，大模型們的「智力」也恰如兒童。那么讓 AI 通過觸屏界面學(xué)習(xí)人類行為，聽上去上還是很有希望的。

畢竟，你的伴侶不一定需要一首 AI 寫的詩，卻可能需要你按爛屏幕去搶一張周杰倫的演唱會(huì)門票。

前幾天 Manus 刷屏，再次佐證了我們?cè)龀龅囊粋€(gè)預(yù)測：大模型將成為智能手機(jī)新的操作系統(tǒng)，自然用戶界面 (Natural user interface, NUI) 將逐步替代現(xiàn)有的 GUI。

至少在目前看來，歷經(jīng)半個(gè)世紀(jì)發(fā)展的 GUI 仍會(huì)是人機(jī)交互的絕對(duì)主流。不過，大模型與 UI 結(jié)合，對(duì)人機(jī)交互進(jìn)行一次前所未有的重新定義，甚至成為新的操作系統(tǒng)——這樣的未來，的確越來越清晰了。

#歡迎關(guān)注愛范兒官方微信公眾號(hào)：愛范兒（微信號(hào)：ifanr），更多精彩內(nèi)容第一時(shí)間為您奉上。

愛范兒|原文鏈接· ·新浪微博