Page Agent:阿里开源AI浏览器插件实现表单自动化

阿里开源AI浏览器插件Page Agent,用自然语言指令自动填写网页表单。
Page Agent是阿里巴巴开源的AI浏览器插件,通过自然语言指令自动完成网页表单填写等操作。它利用大模型实时解析页面DOM结构,动态规划执行步骤,无需像传统RPA那样预先录制脚本。支持Chrome扩展商店安装和npm包集成,可接入OpenAI、DeepSeek等多种大模型,适用于数据录入、测试自动化、日常办公等重复性网页操作场景。
手动填写表单是日常办公中最枯燥的重复劳动之一——用户注册、信息录入、数据迁移,每一次都是对耐心的消耗。阿里开源的浏览器插件 Page Agent 正在改变这一切:只需输入一条自然语言指令,AI 就能自动完成整个表单填写流程。
什么是 Page Agent?
Page Agent 是阿里巴巴开源的一款 AI 浏览器插件,可以理解为"网页中的 AI 操作员"。它能够理解网页结构,根据用户的自然语言指令自动执行页面上的各种操作——点击按钮、填写输入框、选择下拉菜单等,真正实现了浏览器层面的 RPA(机器人流程自动化)。
什么是 RPA? RPA(Robotic Process Automation,机器人流程自动化)是一种通过软件机器人模拟人类操作计算机的技术,诞生于2000年代初期。传统 RPA 工具如 UiPath、Automation Anywhere、Blue Prism 等,依赖于预先录制的操作脚本或规则引擎,通过识别界面元素的固定坐标、ID 或 XPath 来执行操作。这种方式的致命弱点在于脆弱性——一旦页面 UI 发生变化,脚本就会失效,需要人工重新维护。据 Gartner 统计,传统 RPA 项目中有 30%-50% 的维护成本来自于应对 UI 变更。

与传统的 RPA 工具不同,Page Agent 不需要预先录制操作流程或编写脚本,而是通过 AI 大模型实时理解页面内容和用户意图,动态规划执行步骤。这意味着即使面对从未见过的页面,它也能自主完成任务。
技术原理层面,Page Agent 的核心融合了多个关键能力:首先是 DOM 解析与语义理解,插件会实时抓取当前页面的 DOM 树结构,将 HTML 元素(input、select、button 等)转化为结构化的上下文信息;其次是多模态感知,部分实现还会结合页面截图,通过视觉模型(Vision Model)识别页面布局;最后是 Chain-of-Thought 推理,大模型接收到用户指令和页面上下文后,会逐步规划"点击哪里→输入什么→下一步做什么"的执行链路。这一技术路径与 OpenAI 的 Computer Use、Google 的 Project Mariner、Anthropic 的 Claude Computer Use 高度相似,代表了 AI Agent 在"具身操作"领域的重要探索方向。
实测效果:自动新增用户全流程
在实测演示中,作者展示了一个典型的后台管理场景——自动新增用户。整个流程如下:
- 输入指令:"自动填写表单,新增用户"
- AI 自动识别页面上的表单元素
- 依次填入名称、手机号、邮箱、性别、备注等字段
- 全程无需人工干预,AI 逐步自主执行

从演示效果来看,Page Agent 能够准确识别各个表单字段的含义,并填入合理的测试数据。整个过程完全自动化,用户只需发出一条指令即可完成操作。
安装与使用方式
浏览器插件安装
Page Agent 的安装非常简单。打开 Chrome 浏览器的扩展商店,搜索 "Page Agent",第一个结果就是。安装完成后,浏览器右上角会出现插件图标,点击即可打开指令输入面板。

使用方式也很直观:在输入框中用自然语言描述你想要执行的操作,比如"填写注册表单"、"自动提交订单信息"等,Page Agent 就会开始自动执行。
后台系统集成
Page Agent 不仅可以作为浏览器插件独立使用,还支持与现有的后台管理系统深度集成。开发者只需要在项目中导入 Page Agent 的 npm 包,完成初始化配置后即可将 AI 自动化能力嵌入系统。

为什么选择 npm 分发? npm(Node Package Manager)是 JavaScript 生态中最主流的包管理工具,拥有超过 200 万个开源包。通过 npm 分发意味着开发者可以用一行命令(
npm install page-agent)将 AI 自动化能力引入任何基于 Node.js 或现代前端框架(React、Vue、Angular)构建的后台系统。对比微软 Power Automate、Salesforce Flow 等闭源商业产品,开源方案让中小企业无需支付高昂授权费即可享受同等能力。阿里选择开源策略也有其战略考量:一方面借助社区力量快速迭代,另一方面通过生态绑定推广自身的模型服务。
这种集成方式对于企业级应用尤为重要——可以将 AI 自动化能力直接嵌入到内部管理系统中,让所有使用者都能享受到 AI 辅助操作的便利。
多模型支持
Page Agent 在 AI 模型的选择上非常灵活,支持接入多种主流大模型,包括:
- OpenAI(GPT 系列)
- DeepSeek
- 其他兼容 OpenAI API 格式的模型
用户可以根据自己的需求和预算选择合适的模型。这背后涉及实际的成本与性能权衡:GPT-4o 在复杂页面理解和多步骤推理上表现最优,但 API 调用成本较高(约 $5/百万输入 token);DeepSeek-V3 和 DeepSeek-R1 凭借极具竞争力的定价(约 $0.14-$0.55/百万输入 token)成为国内用户的热门选择,性价比突出。对于表单填写这类相对结构化的任务,模型并不需要极强的推理能力,中等规模的模型即可胜任。
值得一提的是,Page Agent 兼容 OpenAI API 格式,意味着任何实现了该标准接口的模型——包括本地部署的 Ollama、LM Studio 等——都可以接入,进一步降低了数据隐私敏感场景下的使用门槛。对于国内用户来说,DeepSeek 是一个性价比较高的首选。
应用场景与价值分析
Page Agent 的应用场景远不止填写表单,它适用于任何需要重复操作网页的场景:
- 数据录入:批量录入客户信息、产品数据等
- 测试自动化:自动填写测试数据,验证表单逻辑
- 日常办公:自动化处理审批流程、报表填写等
- 电商运营:批量上架商品、修改价格等
作为阿里开源项目,Page Agent 的代码完全公开,开发者可以根据自身需求进行二次开发和定制。开源策略也意味着社区可以持续贡献新功能和修复,推动工具不断完善。
总结
Page Agent 代表了 AI 与浏览器自动化结合的一个重要方向。相比传统 RPA 工具需要复杂的流程配置,Page Agent 用自然语言交互大幅降低了使用门槛;相比纯粹的 AI 对话,它又能真正"动手"操作页面,产生实际效果。随着 GPT-4o、DeepSeek 等大模型能力的持续提升,这类"AI + 浏览器操作"的工具将越来越精准和可靠。对于日常需要大量重复填表操作的用户来说,这款工具值得一试。
核心要点
- Page Agent 是阿里开源的 AI 浏览器插件,能通过自然语言指令自动完成网页表单填写等操作
- 安装简单,在 Chrome 扩展商店搜索即可使用,同时支持通过 npm 包集成到后台系统
- 支持接入 OpenAI、DeepSeek 等多种大模型,兼容 OpenAI API 格式,甚至可接入本地部署模型
- 与传统 RPA 不同,无需预先录制流程或编写脚本,AI 实时理解页面 DOM 结构并动态执行
- 适用于数据录入、测试自动化、日常办公等多种重复性网页操作场景
相关推荐
产品体验Qoder vs Cursor实测对比:同样20美金谁更强?
实测对比Qoder和Cursor两款AI IDE,从Agent自主修复能力、人工沟通次数、架构决策等维度评测。Qoder仅需2次沟通完成任务,Cursor需8次。详细分析两者差异,帮你选择最适合的AI编程工具。
产品体验Cursor云Agent演示:打通软件开发全链路瓶颈
深度解析Cursor云Agent最新Demo,展示如何通过云端虚拟机、自动测试产物和全链路控制平面,系统性消除软件开发生命周期中的人类瓶颈,让Agent自主运行、人按需介入。
产品体验Cursor 3.0深度解析:多Agent并行、Design Mode与Best-of-N模型对比
Cursor 3.0正式发布,从AI辅助编程工具进化为Agent舰队指挥中心。本文详解多智能体并行、Design Mode可视化编辑、Best-of-N多模型择优等核心功能,解读AI编程新范式。