当谷歌Gemini手机助手和豆包手机助手在屏幕上自主操作各类应用时,一种名为GUI的AI技术路线正在悄然改变智能体的落地逻辑。

 

对此,北京航空航天大学人工智能研究院教授沙磊日前表示,GUI路线本身就是一种重要的AI科技创新范式,它在理解用户意图、解决海量长尾场景问题上具备显著突破性。通过读取屏幕信息、借助智能体能力拆解用户需求,在用户明确授权下完成各类任务,GUI路线将向用户直观展现智能体从意图理解、任务分解、执行校验到最终完成需求的全流程能力。

 

这一技术路线的核心优势在于其普惠性。沙磊强调,尤其在多方服务协同的复杂任务中,GUI路线能够在用户授权范围内有效解放生产力、促进数据合理流通,同时激活更多“小而美”的服务提供者,推动AI生态与AI经济的整体发展。与受限于协议对接、商业合作、生态封闭等因素的API路线相比,GUI路线在解决API短期内难以覆盖的长尾问题上展现出独特价值,能够打破现有壁垒,加快AI普惠化应用,促进生态开放融合。

 

隐私与安全是所有AI智能体发展不可回避的底线问题。沙磊表示,GUI Agent从技术层面有能力保护用户隐私和数据安全,前提是做好三方面工作:所有操作均基于用户授权,任务拆解与执行全程可见、可感知、可接管;对用户数据在传输、存储等环节严格加密,对个人信息进行脱敏与匿名化处理;通过内部专业团队开展隐私影响评估、合规检测等多重防护,从机制上降低隐私泄露风险。实际上,GUI与API并非非此即彼的技术选择,两者在智能体意图识别、任务拆解等环节面临相似的安全风险,这也是整个AI Agent产业发展过程中行业需要共同面对和解决的重点。

 

从全球视野来看,GUI路线已成为科技巨头的探索方向。谷歌已经发布了使用GUI相关技术方案的Gemini手机助手,美国OpenAI、微软在内的全球科技公司,都在通过论文、产品DEMO积极探索GUI方向。沙磊分析认为,API路线更有利于头部厂商主导规则制定,巩固自身生态优势;而GUI路线则更侧重从用户体验与场景落地出发,更贴近普惠AI的价值导向。在国内,豆包手机助手已经率先落地GUI实现路径,也有不少厂商跟进并开源相关能力,为行业发展注入新活力。

 

面向未来,AI Agent要真正保障用户权利,必须坚守用户知情、事前授权、事中感知、事中可控、事后可查等关键原则,严格遵循数据最小化、目的限定、安全加密、端云协同保护等要求。当前整个行业仍处于早期探索阶段,隐私、合规、责任是所有技术路线都必须坚守的底线,不存在路线之别。无论GUI还是API,都必须在用户授权下运行,严格保护用户数据,遵守国家法律法规。只有让AI在安全、可控、可解释的前提下服务用户,最终为用户提供更可靠、更可用的服务,以更繁荣的应用生态推动AI经济价值落地。

 

文/罗亦丹

校对 穆祥桐