随着人工智能技术的飞速发展,大模型在各个领域展现出强大的能力。其中,可操控终端设备的大模型更是为RPA(机器人流程自动化)行业带来了革命性的变化。本文将介绍Anthropic的Claude 3.5 Sonnet、智谱的AutoGLM以及微软的OmniParser框架三种可操控终端设备的大模型,并探讨其对传统RPA行业的影响以及未来发展趋势。
引言
RPA(机器人流程自动化)作为一种通过模拟人类前台操作来执行重复性任务的技术,近年来在各个行业得到广泛应用。然而,传统的RPA技术难以适应复杂场景。随着可操控终端设备的大模型的出现,传统RPA行业将会收到新技术的冲击。
在电影《钢铁侠》中,我们看到了一个令人印象深刻的智能助手——贾维斯,它是一个能够理解自然语言、执行复杂任务的人工智能系统,它不仅能够控制钢铁侠的装备,还能够进行信息检索、数据分析、辅助决策等。
如今,随着可操控终端设备的大模型的出现,“贾维斯”式的智能助手已经不再是遥不可及的梦想。Anthropic的Claude 3.5 Sonnet、智谱的AutoGLM以及微软的OmniParser框架等大模型,已经具备了部分类似“贾维斯”的功能。它们能够理解用户的自然语言指令,并执行相应的操作。这些大模型的出现,标志着人工智能技术正在从简单的自动化工具向智能化的助手转变。
本文将介绍Anthropic的Claude 3.5 Sonnet、智谱的AutoGLM以及微软的OmniParser框架三种可操控终端设备的大模型,并探讨其对RPA行业的影响以及未来发展趋势。
可操控终端设备的大模型
Claude 3.5 Sonnet
Anthropic的Claude 3.5 Sonnet是一个基于Transformer架构的预训练语言模型,拥有1750亿参数。其具备强大的自然语言理解能力,新增的 “computer use” 功能,能够理解用户的指令并执行相应的操作,让其能够如同人类一般与电脑进行交互,例如打开应用程序、浏览网页、输入文本等。在 OSWorld 基准测试平台上,Claude 3.5 Sonnet 在仅使用截图的测试类别中得分 14.9%,远超第二名的 7.8%。虽然这一成绩低于人类水平,但在人工智能领域已是一大突破。同时,Claude 3.5 Sonnet 开放了API与计算机界面的交互,便于开发人员基于该模型进行二次开发。
AutoGLM
智谱清言基于其GLM基座模型研发了新的具备“Phone Use”功能的 AutoGLM 。用户可以通过文字/语音指令,使其模拟人类动作操作终端。例如,通过语音指令可以完成朋友圈点赞、写评论、电商网购、O2O 平台写五星好评、外卖下单、资料检索筛选、高铁购票等多个任务。其操作流程简单便捷,用户可以说 “帮我点个黄焖鸡米饭外卖”,AutoGLM 就会自动打开外卖软件,搜索黄焖鸡米饭,选择订单页面选项,最后加购下单。
OmniParser 框架
微软的 OmniParser 框架是一款解析和识别屏幕上可交互图标的 AI 工具。它结合可交互区域检测模型、图标描述模型和 OCR 模块等,不需要 HTML 标签或视图层次结构等显式基础数据,能够在桌面、移动设备和网页等上跨平台工作。OmniParser 除了识别屏幕上的元素,还能将这些元素转换成结构化的数据。同时,OmniParser框架是一个用于构建可操控终端设备的大模型的框架,GPT-4V 在使用 OmniParser 插件后,图标的正确标记率从 70.5% 提升至 93.8%。OmniParser 的发布为开发者提供了一个强大的工具,助力创建更智能、更高效的用户界面驱动智能体。
可操控终端的大模型与传统RPA技术的比较
Claude 3.5 Sonnet 能够准确计算需要移动鼠标的像素数,从而精准地点击屏幕上的正确位置。智谱的 AutoGLM 基于自进化在线强化学习框架(WEBRL)通过自适应学习策略,在真实环境中动态调整任务难度,实现任务的逐步迭代和优化,提升执行效率和准确度。微软的 OmniParser 通过其中的图标检测模型,以及功能描述模型,用于识别可互动的区域、分析这些区域的功能。大模型通过大量的多模态训练数据,能够理解自然语言和图片的含义,基于屏幕截图更好地理解当前状态,从而执行多种复杂任务。
而传统 RPA 技术则是一种软件解决方案,通过模拟人类用户的操作行为,自动化执行重复性高、规则性强的任务。传统RPA 机器人可以登录应用程序、移动文件、复制数据、填写表单等,几乎可以完成任何通过用户界面进行的任务。它主要侧重于执行具体的操作流程,对于复杂的语言理解和生成能力相对较弱。
可操控终端的大模型对传统RPA行业的影响
降低学习门槛
传统的RPA技术需要用户具备一定的编程基础,而可操控终端设备的大模型则无需用户编写代码,只需通过自然语言指令即可实现自动化操作,极大地降低了RPA的学习门槛。
提高自动化效率
可操控终端设备的大模型能够理解用户的指令并执行相应的操作,从而实现更高效的自动化流程。例如,用户可以指令模型打开应用程序、浏览网页、输入文本等,无需手动操作,节省了大量时间和精力。
适应复杂场景
大模型为RPA 装上了“大脑”,赋予了RPA更深层次的理解和学习能力。大模型通过深度学习算法,能够理解复杂的语言逻辑和上下文关系,更好地解析用户的意图并执行相应的操作,适应更复杂的场景,从而对各种任务进行智能分析和规划。RPA 在大模型的加持下,不再仅仅是机械地执行重复性任务,而是能够处理更为复杂和抽象的任务。
大模型在RPA行业的未来发展趋势
随着大模型技术的迭代,可操控终端设备的大模型在RPA行业展现出巨大的潜力。未来,这类模型将朝着以下几个方向发展:
一是结合其他人工智能技术。可操控终端设备的大模型将会与其他人工智能技术相结合,使系统更好地理解用户的诉求,实现更智能化、自动化的流程,更加精准地完成用户需求、提升用户体验。
二是自适应。可操控终端设备的大模型将会具备更强的自适应能力,能够根据不同的场景和任务进行自我调整,从而适应更复杂的自动化需求。
三是个性化。可操控终端设备的大模型将会根据用户的行为和偏好进行个性化定制,从而提供更加个性化的自动化服务。
总结与建议
可操控终端设备的大模型为传统RPA行业带来了革命性的变化,极大地降低了RPA的学习门槛,提高了自动化效率,并推动了RPA与其他技术的融合。未来,可操控终端设备的大模型将会在RPA行业得到更广泛的应用,并推动RPA行业向智能化、自适应和个性化的方向发展。为了更好地推动可操控终端设备的大模型在RPA行业的应用,因此建议:
一是完善生态系统。 建立完善的生态系统,包括开发工具、API、社区等,方便开发者使用和开发可操控终端设备的大模型。
二是培养企业员工对大模型的掌握。对于需要处理大量重复性工作的行政人员,培养其具备人工智能大模型使用的能力,使未来大量的机械、流程化的操作可以依靠大模型来快速完成,行政人员仅需负责监督大模型处理结果是否正确,节约人工成本。