OpenClaw实测：AI自动化能否取代传统RPA？

RPA的困境与AI自动化的崛起

在自动化领域，RPA（机器人流程自动化）长期以来是企业和个人开发者的首选工具。无论是AutoJS、按键精灵还是易语言，这些传统方案都需要开发者手动编写脚本、维护元素定位、处理各种异常情况。

RPA技术背景：RPA起源于2000年代初期，核心原理是通过模拟人类在计算机界面上的操作行为——包括鼠标点击、键盘输入、界面元素识别——来执行规则明确的任务。国际主流商业平台包括UiPath、Automation Anywhere和Blue Prism。传统RPA依赖UI元素的精确定位，通常通过XPath、CSS选择器或控件ID来锁定界面元素，这使得它在界面稳定的场景下极为高效，但一旦应用程序更新界面布局，脚本便可能全面失效，维护成本极高。

然而，随着AI大模型能力的飞速发展，一个新的问题被提上了台面：AI能否直接取代RPA？

最近，一个名为OpenClaw的项目引发了广泛讨论。它试图通过AI的视觉理解和代码生成能力，实现真正的"零代码"自动化操作。本文将通过两个实际演示案例，深入分析这一技术路线的可行性与局限性。

实验一：AI操控安卓手机完成自动化任务

任务描述

第一个实验的目标是让AI自动操控安卓手机，完成以下任务：打开短视频APP，自动刷视频，并获取每个视频的评论内容。整个过程中，手机通过投屏连接到电脑，AI通过命令行控制台作为执行代理。

执行过程与结果

AI展现出了令人印象深刻的UI界面分析能力。这种能力依托于多模态大语言模型（Multimodal LLM），代表性模型包括GPT-4V、Claude 3和Gemini等。与传统计算机视觉（基于模板匹配或特征检测）不同，多模态LLM具备上下文推理能力，能够理解"找到评论区并滚动"这类自然语言指令，并将其映射到具体的界面操作序列。AI能够：

自动识别当前界面的元素和布局
获取视频评论内容
执行滑动操作切换到下一个视频
循环完成三个视频的浏览和评论抓取

AI操控安卓手机获取视频评论

从演示结果来看，AI成功获取了十个视频的信息，并准确刷到第三个视频获取其评论。整个过程无需人工干预，AI自主完成了界面识别、操作决策和执行的完整闭环。

自动生成可复用的自动化代码

这里有一个关键的技术亮点——AI不仅能执行自动化任务，还能在执行过程中自动生成对应的源代码。

这一能力依托于代码大模型（Code LLM）的发展，代表性模型包括GitHub Copilot背后的Codex、DeepSeek-Coder以及Claude的代码生成能力。整个过程分为两个阶段：首先，AI在「探索模式」下通过视觉理解执行任务，同时记录每一步操作的控件信息、坐标和交互类型；其次，AI将这些操作记录转化为符合目标框架语法规范的可执行代码。这种「录制即代码」的模式与传统RPA工具的录制功能有本质区别——传统录制依赖固定坐标，而AI生成的代码融入了语义化的元素定位逻辑，具备更强的鲁棒性。

具体流程如下：

加载依赖库：AI首先确定需要的技术栈
执行流程并记录：在实际操作过程中，AI记录所有控件信息
生成可运行代码：基于官方代码示例，输出结构化的自动化脚本

AI自动生成的自动化代码

生成的代码包含了启动APP、循环滑动屏幕、获取元素等完整逻辑，且没有语法错误，可以直接运行。最大的潜在问题仅在于元素选择器可能因界面更新而变化，但这只需要少量手动调整。

这意味着什么？ 一旦代码生成完毕，后续执行就不再消耗AI的token费用，实现了"一次智能生成，无限次低成本运行"的模式。

Token成本说明：Token是大语言模型处理文本和图像的基本计量单位。对于图像，根据分辨率不同，一张截图可能消耗数百至数千个token。以GPT-4V为例，处理一张1080p截图约消耗800-1500个token，成本约0.01-0.02美元。在需要每秒多次分析的自动化场景中，成本会快速累积——这正是代码生成策略要解决的核心经济问题：生成代码后，后续执行完全脱离AI推理，成本结构回归传统RPA水平。

实验二：AI操控Windows桌面应用

复杂场景挑战

第二个实验将难度升级——让AI操控Windows桌面应用程序，具体任务是：在微信中找到指定群聊，选择特定表情包并发送。

AI定位Windows应用窗口

这个任务对传统RPA来说相当复杂，因为涉及到：

窗口定位和切换
群聊搜索和识别
表情包面板的打开
特定表情的识别和选择
最终的发送操作

AI的处理方式

AI的处理流程展现了强大的适应性，其底层支撑是Transformer架构的注意力机制，使模型能够在图像的不同区域之间建立语义关联，从而实现人类级别的界面理解：

直接定位到目标窗口
分析界面结构（与安卓端能力一致）
找到指定群聊
调出表情包面板
识别并选择"微笑"表情
完成发送操作

AI选择表情包并发送

演示者特别强调，这套流程如果用传统RPA来实现，会"非常非常复杂