曾经只有对话功能的聊天机器人,正在进化为“有手、有脑、有眼睛”的自主 Agent(智能体)。11月29日,智谱在其Agent OpenDay上公布了智能体方面的最新进展,其研制的智能体AutoGLM可以自主执行超过50步的长步骤操作,并能够跨APP执行任务。当日,AutoGLM启动大规模内测,“会尽快上线成为真正面向广大C端用户开放的产品”,公司CEO张鹏说。
在现场下达一个简单的语音指令后,张鹏动了动嘴吩咐自己的智能体给在场的数百位嘉宾发送一个具体金额和数量的红包,它手机上的AutoGLM智能体随即开始执行打开微信、进入红包界面输入相应数额等操作,而张鹏只需要在确认支付环节输入密码,几秒钟后,现场嘉宾的聊天群里就收到了这个红包。
在演示视频中,当智能体接到“帮我看看哪个外卖APP上附近的肯德基全家桶最便宜并帮我下单”这一指令后,AutoGLM自动打开了手机上的外卖APP、搜索商品、进入店铺、挑选商品、加入购物车并记录价格,再打开另一个外卖APP并进行了同样的操作后,将对比结果展现给人类用户并得到认可后完成了下单。
“给某某聊天群里所有人的第一条朋友圈点个赞”“帮我在小红书查一下火锅需要哪些食材,去小象超市全部采购回来”诸如这样需要使用多个APP完成的任务,智能体都能顺利完成。在采购火锅食材的例子中,从打开小红书、搜索文章、提取文章内容,到打开外卖APP、搜索并加购多种商品后下单,AutoGLM自主执行了 54步无打断操作。
智能体不仅能操作手机,也能操作电脑,或是完成电脑、手机联动的场景,对电子产品进行“无人驾驶”。例如,当上班族在下班后收到老板索要某文件的要求后,可以通过手机告诉智能体:“把电脑上的某某研报文件微信发送给老板”,基于电脑的智能体GLM-PC就能完成操作。
“AutoGLM和GLM-PC是我们迈向AI智能操作系统的重要尝试。”张鹏说。据其对大模型发展五个阶段的定义,L1 语言能力、L2 逻辑能力(多模态能力)、L3 使用工具的能力、 L4 自我学习能力、 L5 探究科学规律。张鹏认为,发展至今,大模型已经初步具备了人类与现实物理世界互动的部分能力。“Agent 将极大地提升 L3 使用工具能力,同时开启对 L4 自我学习能力的探索。”他说,未来将继续加速Agent模型产品的研发,期待着一句话操作电脑和手机的范式尽快到来。
放眼全球,苹果(Apple Intelligence)、Anthropic(Computer Use)、谷歌(Jarvis)和 OpenAI(Operator)等企业已经把智能体作为2025年的主要关注点。业内普遍认为,2025年将是智能体爆发之年。Gartner近期将Agentic AI (代理式人工智能)列为2025年十大技术趋势之一,并预测2028年至少有15%的日常工作决策将由Agentic AI自主完成,而这一数字在2024年为0。