Page Agent：阿里开源AI浏览器插件实现表单自动化

手动填写表单是日常办公中最枯燥的重复劳动之一——用户注册、信息录入、数据迁移，每一次都是对耐心的消耗。阿里开源的浏览器插件 Page Agent 正在改变这一切：只需输入一条自然语言指令，AI 就能自动完成整个表单填写流程。

什么是 Page Agent？

Page Agent 是阿里巴巴开源的一款 AI 浏览器插件，可以理解为"网页中的 AI 操作员"。它能够理解网页结构，根据用户的自然语言指令自动执行页面上的各种操作——点击按钮、填写输入框、选择下拉菜单等，真正实现了浏览器层面的 RPA（机器人流程自动化）。

什么是 RPA？ RPA（Robotic Process Automation，机器人流程自动化）是一种通过软件机器人模拟人类操作计算机的技术，诞生于2000年代初期。传统 RPA 工具如 UiPath、Automation Anywhere、Blue Prism 等，依赖于预先录制的操作脚本或规则引擎，通过识别界面元素的固定坐标、ID 或 XPath 来执行操作。这种方式的致命弱点在于脆弱性——一旦页面 UI 发生变化，脚本就会失效，需要人工重新维护。据 Gartner 统计，传统 RPA 项目中有 30%-50% 的维护成本来自于应对 UI 变更。

Page Agent 是阿里开源的AI浏览器插件

与传统的 RPA 工具不同，Page Agent 不需要预先录制操作流程或编写脚本，而是通过 AI 大模型实时理解页面内容和用户意图，动态规划执行步骤。这意味着即使面对从未见过的页面，它也能自主完成任务。

技术原理层面，Page Agent 的核心融合了多个关键能力：首先是 DOM 解析与语义理解，插件会实时抓取当前页面的 DOM 树结构，将 HTML 元素（input、select、button 等）转化为结构化的上下文信息；其次是多模态感知，部分实现还会结合页面截图，通过视觉模型（Vision Model）识别页面布局；最后是 Chain-of-Thought 推理，大模型接收到用户指令和页面上下文后，会逐步规划"点击哪里→输入什么→下一步做什么"的执行链路。这一技术路径与 OpenAI 的 Computer Use、Google 的 Project Mariner、Anthropic 的 Claude Computer Use 高度相似，代表了 AI Agent 在"具身操作"领域的重要探索方向。

实测效果：自动新增用户全流程

在实测演示中，作者展示了一个典型的后台管理场景——自动新增用户。整个流程如下：

输入指令："自动填写表单，新增用户"
AI 自动识别页面上的表单元素
依次填入名称、手机号、邮箱、性别、备注等字段
全程无需人工干预，AI 逐步自主执行

Page Agent 自动填入表单字段

从演示效果来看，Page Agent 能够准确识别各个表单字段的含义，并填入合理的测试数据。整个过程完全自动化，用户只需发出一条指令即可完成操作。

安装与使用方式

浏览器插件安装

Page Agent 的安装非常简单。打开 Chrome 浏览器的扩展商店，搜索 "Page Agent"，第一个结果就是。安装完成后，浏览器右上角会出现插件图标，点击即可打开指令输入面板。

Page Agent 指令输入面板

使用方式也很直观：在输入框中用自然语言描述你想要执行的操作，比如"填写注册表单"、"自动提交订单信息"等，Page Agent 就会开始自动执行。

后台系统集成

Page Agent 不仅可以作为浏览器插件独立使用，还支持与现有的后台管理系统深度集成。开发者只需要在项目中导入 Page Agent 的 npm 包，完成初始化配置后即可将 AI 自动化能力嵌入系统。

Page Agent 初始化配置与系统集成

为什么选择 npm 分发？ npm（Node Package Manager）是 JavaScript 生态中最主流的包管理工具，拥有超过 200 万个开源包。通过 npm 分发意味着开发者可以用一行命令（npm install page-agent）将 AI 自动化能力引入任何基于 Node.js 或现代前端框架（React、Vue、Angular）构建的后台系统。对比微软 Power Automate、Salesforce Flow 等闭源商业产品，开源方案让中小企业无需支付高昂授权费即可享受同等能力。阿里选择开源策略也有其战略考量：一方面借助社区力量快速迭代，另一方面通过生态绑定推广自身的模型服务。

这种集成方式对于企业级应用尤为重要——可以将 AI 自动化能力直接嵌入到内部管理系统中，让所有使用者都能享受到 AI 辅助操作的便利。

多模型支持

Page Agent 在 AI 模型的选择上非常灵活，支持接入多种主流大模型，包括：

OpenAI（GPT 系列）
DeepSeek
其他兼容 OpenAI API 格式的模型

用户可以根据自己的需求和预算选择合适的模型。这背后涉及实际的成本与性能权衡：GPT-4o 在复杂页面理解和多步骤推理上表现最优，但 API 调用成本较高（约 $5/百万输入 token）；DeepSeek-V3 和 DeepSeek-R1 凭借极具竞争力的定价（约 $0.14-$0.55/百万输入 token）成为国内用户的热门选择，性价比突出。对于表单填写这类相对结构化的任务，模型并不需要极强的推理能力，中等规模的模型即可胜任。

值得一提的是，Page Agent 兼容 OpenAI API 格式，意味着任何实现了该标准接口的模型——包括本地部署的 Ollama、LM Studio 等——都可以接入，进一步降低了数据隐私敏感场景下的使用门槛。对于国内用户来说，DeepSeek 是一个性价比较高的首选。

应用场景与价值分析

Page Agent 的应用场景远不止填写表单，它适用于任何需要重复操作网页的场景：

数据录入：批量录入客户信息、产品数据等
测试自动化：自动填写测试数据，验证表单逻辑
日常办公：自动化处理审批流程、报表填写等
电商运营：批量上架商品、修改价格等

作为阿里开源项目，Page Agent 的代码完全公开，开发者可以根据自身需求进行二次开发和定制。开源策略也意味着社区可以持续贡献新功能和修复，推动工具不断完善。

总结

Page Agent 代表了 AI 与浏览器自动化结合的一个重要方向。相比传统 RPA 工具需要复杂的流程配置，Page Agent 用自然语言交互大幅降低了使用门槛；相比纯粹的 AI 对话，它又能真正"动手"操作页面，产生实际效果。随着 GPT-4o、DeepSeek 等大模型能力的持续提升，这类"AI + 浏览器操作"的工具将越来越精准和可靠。对于日常需要大量重复填表操作的用户来说，这款工具值得一试。

核心要点

Page Agent 是阿里开源的 AI 浏览器插件，能通过自然语言指令自动完成网页表单填写等操作
安装简单，在 Chrome 扩展商店搜索即可使用，同时支持通过 npm 包集成到后台系统
支持接入 OpenAI、DeepSeek 等多种大模型，兼容 OpenAI API 格式，甚至可接入本地部署模型
与传统 RPA 不同，无需预先录制流程或编写脚本，AI 实时理解页面 DOM 结构并动态执行
适用于数据录入、测试自动化、日常办公等多种重复性网页操作场景