C114门户论坛百科APPEN| 举报 切换到宽版

亚星游戏官网

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

亚星游戏官网-yaxin222  三级军士长

注册:2007-10-294
发表于 2024-11-29 21:40:55 |显示全部楼层

亚星游戏官网-yaxin222


亚星游戏官网-yaxin222


亚星游戏官网-yaxin222


Agent交互新体验。

编辑|赵健

想象这样一个场景:在你的手机上有一个AI助手,只要你发出一个指令,它就可以在微信上给老板的朋友圈点赞并写评论,在淘宝上购买某一款历史订单产品,在携程上预订酒店,在12306上购买火车票,在美团上点外卖......

这一场景已经不再是想象,而是变成了现实。

今天,在ChatGPT发布两周年的前一天,智谱举办OpenDay,发布了用AI替代人类实行任务的三款智能体Agent,分别是面向手机的phone use——AutoGLM,面向电脑的compute use——GLM PC,以及面向网页的GLM-Web能力。

在此之前,业内的Agent有很多进展,但更多是以普通人不好理解的技术框架的形态出现。

今天,智谱真正将这背后的技术落地为人人可以感知的产品。用一句话就能操作电脑和手机的时代即将到来了。

1.一句话操作电脑和手机


什么是AutoGLM?

只需接收简单的文字/语音指令,它就可以模拟人类操作手机。理论上,通过对GUI的深刻理解,AutoGLM可以完成人类在可视化电子设备(电脑,手机,平板……)上能做的任何事。它不受限于简单的任务场景或API调用,也不需要用户手动搭建复杂繁琐的工作流,操作逻辑与人类类似,真正做到在日常生活、工作中辅助人类。

这并非智谱第一次发布相关能力。2024年1月,智谱在技术开放日上发布了All Tools工具;2024年10月,智谱发布第一个产品化的Agent——AutoGLM 。本次OpenDay,智谱在Agent 技术方面的布局继续拓展。

「甲子光年」也在第一时间体验了AutoGLM。

AutoGLM有点像Siri,但是Siri最多帮你打开某个App,而AutoGLM则可以进一步像人类那样操作手机。只需要发出一个相对简单的指令,AutoGLM就会自动去实行。

比如,可以让AutoGLM订外卖点咖啡:



也可以让AutoGLM订火车票、机票,甚至可以在不同的App之间比价:



目前,AutoGLM能够操作的App如下:

亚星游戏官网-yaxin222


AutoGLM是一个非常早期的技术,目前还有一些明显的不足之处。

第一,每一个步骤之间的间隔延迟较大,可能要停留好几秒的时间,达不到人类操作般丝滑。不过,随着技术的进步,这种延迟并不是一个很大的技术难题。

第二,AutoGLM有时会被手机弹窗干扰。比如点咖啡时,美团App可能会推送“天降红包”弹窗,AutoGLM有时不由自主地点击去,从而会打断任务。

第三,AutoGLM有时也会出错。比如当我让它订火车票时,它会询问我选择的车次。当我告诉它选择用时最短的一列时,它并没有实行该指令,而是选择了用时更久的车次。

AutoGLM还有很大的提升空间。但不得不说,它可能已经表现出了贾维斯那样的AI助手的早期雏形。

在被AutoGLM丝滑的“类人”操作震惊到的同时,很快另一种感受也随之而来,那就是“担忧”。如果AI助手可以自动操作我的手机,是否会造成数据或隐私泄漏的风险?

对此,智谱表示,AutoGLM严格敬重用户隐私,所有页面信息的获取均围绕用户向AutoGLM主动发起的任务进行,AutoGLM本身并不会主动获取用户的个人隐私信息,对于授权范围以外的任务会主动提示用户获取用户同意,涉及交易、支付等重要操作的步骤也会向用户进一步询问是否实行。每次关闭应用在后台再次启动AutoGLM功能,都会重新向用户申请无障碍权限,用户想退出使用的,也可以选择在手机设置页面进行手动关闭。

隐私与数据安全是一道红线。如果这一问题被很好地解决,那么可以想象的是,未来的AI应用与智能设备将充满想象力,AI技术也将真正惠及千万家。

2.从Chat到Act


在ChatGPT横空出世两年后,大家终于看到了一个不止于写诗作画,而是真正在手机或电脑上带来人机交互体验革新的AI Agent的样子。

智谱CEO张鹏表示,AutoGLM展现了大模型从对话(Chat)走向操作(Act),从生成式AI迈向代理式AI的演进趋势。

AI Agent是过去一年非常火的话题。Gartner已将代理式AI列为2025年十大技术趋势之一,并预测到2028年,至少有15%的日常工作决策将由代理式Al自主完成。

值得关注的是,在大模型技术到来之前,没有任何方法能够替代人类实现智能的与机器交互的方式。

过去的键盘、鼠标、多点触控这样的物理交互形式,到dos、图形界面和iOS这样的操作系统,本质上还是让人来适应机器。以至于今天用户仍然需要花费大量的时间去学习形形色色等我App操作界面。现实中复杂的企业App界面让人无所适从,跨多个的应用来完成复杂的工作流,这中间有大量的重复机械性交互,但却依然必须都由人来手动操作。

去年大模型出现之后,MicroSoft第一时间发布了Copilot,即副驾驶形态,是人机交互改变的第一步。但Copilot就是最终答案吗?或许,它只是一种过渡形态。

2024年3月,红杉资本在其AI Ascent主题活动上预测,2024年人工智能趋势的第一条就是:Copilot将逐渐向Agent转变,也就是从“副驾驶”转向“主驾驶”。

过去一年里,大家看到业内的科技企业都在Agent上积极布局,包括苹果的Apple Intelligence,GOOGLE的Jarvis,Anthropic的Computer Use,智谱的AutoGLM,以及OpenAI即将发布的Operator等等。

在技术进步的推动下,今天大模型加持的Agent可以做到像人一样,理解界面、规划任务、使用工具、完成任务,甚至能实现人类的PDCA(Plan-Do-Check-Act)循环,自我提升。总的来说,Agent已经初步具备了模仿人类与物理世界互动的能力。

如何理解Agent?在智谱看来,“机器智能”的本质在于对世界的理解能力以及预测能力,但理解与预测不限于ChatGPT式的语言文本,也不限于Sora式的图像视频,它还可以预测“操作序列”——操作序列的预测就是AI Agent,它代表了一种未来真正的人机交互方式,就是让机器来适应人。

Agent是通往AGI的重要一步。智谱定义了大模型发展的五个阶段,与OpenAI的定义有所不同,其中,L1代表语言能力,L2代表逻辑思维能力与多模态能力,L3代表使用工具(Agent)的能力,L4代表自我学习的能力,L5代表全面超越人类、探究科学规律的能力。

亚星游戏官网-yaxin222


并且,智谱也提出了他们认为每一个阶段的进度条。目前,L1的语言能力已经达到80%;L2的逻辑思维能力完成度为60%,o1模型是推理模型的新范式;L3 Agent的能力还比较早期,只有40%,与人类相比还有很大的提高空间;L4、L5基本才刚刚开始。

尽管目前技术还比较初期,但Agent的未来应用已经展现出了强大的前景。理论上讲,随着Agent能力继续提升,它们将能调用越来越多的应用app,适配越来越多的操作系统,实现越来越复杂的连贯自主操作。

张鹏认为,目前的Agent能力更像是在用户和应用之间,增加一个智能的调度层,链接所有应用甚至是所有设备。这可以看做是大模型通用操作系统(LM-OS)的一种雏形。

这已经对人机交互形式产生影响。未来,基于大模型智能能力(从L1到L4乃至更高),有机会实现原生的人与机器交互的方式LM-OS,这将改变人与机器交互的方式。

3.智能设备的Agent未来


强大Agent的出现,也将会给智能设备打开新的可能。

通过端侧芯片性能优化和端云一体架构,Agent不仅在操作系统OS和应用app上实现用户体验变革,还能将其推广到各类智能设备上。

智谱COO张帆表示,包括汽车、眼镜、音箱乃至具身智能和各类AI原生硬件,都能基于Agent能力实现人机交互的新升级。手机+AI 会变成随身个人智能助理,PC+AI 将会成为全新生产力工具,汽车+AI 将会让车成为人们的智能第三生活空间。

当然,大模型不仅仅会为手机、PC和汽车带来机会,而是会惠及各种各样的智能设备,从手机到电脑,再到汽车、眼镜、家居和各种edgeside设备,理论上是没有边界限制的。

AI时代智能设备的基础要素,随着大模型和Agent能力的持续提升,正在发生变化。为此,智谱已在芯片、应用app、操作系统OS和模型侧进行了长时间、全链路布局。

一是芯片适配与算力保障。智谱同终端芯片厂商展开密切协作,尤其是和包括高通、英特尔等端侧芯片厂商联合调教端侧大模型,以充分发挥最新芯片的性能。

二是完备的模型矩阵。智谱发布了不同尺寸的模型,包括大尺寸参数模型和端侧模型来适配不同的应用场景,以尽可能最大化的“榨干”每一点算力,发挥出最大的智能化的能力。

亚星游戏官网-yaxin222


三是端云一体的解决方案。在终端层面,智谱已经和手机厂商、PC厂商实现深度合作,在 AIPC、智能助手Agent等领域有诸多成果,一方面重塑人机交互体验,另一方面也逐步推动更多edge side设备互联互通。此处操作,彼处响应,端云无缝的跨设备体验在未来有可能将依靠 Agent来完成。

随着产品化Agent的陆续推出,不同平台、终端之间的界限或许正在逐渐被打破。

去年12月,比尔·盖茨曾预测,Agent不仅将改变人们与计算机的互动方式,还将颠覆App行业,引发自从大家从键入命令到点击图标以来计算机领域的最大革命。

一年之后的今天,智谱或许让大家看到了这场AI革命最开始改变的样子。

(封面图来源:智谱)


来源:网易

举报本楼

本帖有 2 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图  

GMT+8, 2024-12-22 14:41 , Processed in 0.209197 second(s), 17 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部
XML 地图 | Sitemap 地图