Cursor Agent重磅更新：AI编程助手学会自己测试代码并录制视频证明

Cursor 最近发布了一项重磅更新——其编程 Agent 现在可以像真正的程序员一样，使用计算机测试自己的代码修改，并录制工作视频作为"工作证明"。这意味着代码审查的范式正在发生根本性转变：未来的审查重点不再是逐行检查代码，而是看 AI 能否用实际行动证明自己的工作成果。

从"盲审代码"到"看视频验收"：代码审查的范式转变

想象一下这个场景：你的同事让你审查一个 Pull Request，结果你发现他甚至没有测试过自己的修改。你大概率会感到不满。Pull Request（PR）是现代软件开发中的核心协作机制，最早由 GitHub 在 2008 年推广。开发者在完成功能开发后，向主代码库提交合并请求，其他团队成员对代码变更（即 diff）进行审查，确认逻辑正确、风格一致后才允许合并。这一流程被称为 Code Review，是保障代码质量的关键防线。然而，随着 AI 生成代码的比例快速增长，传统逐行审查的模式面临效率瓶颈——审查者需要理解 AI 的编码意图，而 AI 生成的代码量往往远超人类手写的速度。

Cursor 创始人 Aman Sanger 指出，这正是目前与编程 Agent 协作时的常见体验——AI 写了代码，但你无法确认它是否真的能跑。

现在，Cursor Agent 具备了使用计算机的能力。这一能力源于近年来多模态大模型的突破——2024 年 Anthropic 率先发布了 Claude 的 Computer Use 功能，允许 AI 通过截屏识别界面元素并模拟鼠标点击、键盘输入等操作。其技术基础包括视觉理解模型（识别 UI 元素的位置和状态）、动作规划（将高层目标分解为具体的操作序列）以及反馈循环（根据操作结果调整后续行为）。Cursor 将这一能力深度集成到编程工作流中，使 Agent 不仅能编写代码，还能像人类开发者一样启动浏览器、导航到本地运行的应用、操作界面元素，并将整个过程录制为视频。开发者在审查代码时，不仅能看到代码 diff，还能观看 Agent 的操作录像，直观确认功能是否正常工作。

实战演示：用Cursor Agent为Excalidraw添加三大功能

环境搭建与代码库自动接入

在演示中，Aman 选择了 Excalidraw 作为测试项目。Excalidraw 是一个基于 React 和 TypeScript 构建的开源在线白板工具，以其手绘风格的视觉效果著称，在 GitHub 上拥有超过 9 万颗星标，被广泛用于技术架构图、头脑风暴和协作设计。选择这样一个真实的、大规模的开源项目作为演示对象，能够有效检验 AI Agent 在真实工程环境中的能力边界。

Aman 让 Cursor Agent 自动 onboard 到这个代码库，Agent 成功完成了环境搭建，并返回了一段视频，展示它能够使用计算机导航并验证软件正常运行。

这个环节本身就很有价值——对于复杂项目，环境配置往往是最耗时的步骤之一，涉及依赖安装、环境变量配置、数据库初始化等一系列操作。Agent 能够自主完成这一过程并提供可视化验证，大幅降低了新成员或新工具接入项目的门槛。

添加表格模板支持

Aman 从 GitHub Issues 中挑选了一个功能需求：为 Excalidraw 添加表格支持。他将 GitHub Issue 链接粘贴给 Agent，Agent 随后独立工作了约 40 分钟，最终返回了一段视频，展示它如何在浏览器中导航到本地运行的软件，并成功插入新创建的表格模板。

Cursor Agent添加表格功能的工作过程

CSV 粘贴转表格：Agent 的巧妙实现方案

更有趣的是后续需求。Aman 注意到 GitHub 上还有一个请求——支持将 CSV 数据粘贴为表格模板。他向 Agent 提出了这个追加需求，Agent 又工作了 20 分钟后交付了成果。

CSV粘贴为表格模板的功能演示

Agent 的实现方式相当巧妙：它打开一个新标签页，通过 URL 将数据直接注入浏览器，然后复制粘贴到 Excalidraw 中生成表格。更令人印象深刻的是，Agent 还主动思考并处理了边界情况——它构造了一个包含逗号的 CSV 数据集（需要用引号包裹），然后将这段文本复制粘贴到 Excalidraw 中，验证了数据能被正确解析。

这里值得展开说明 CSV 格式的复杂性：CSV（Comma-Separated Values）看似简单，实则暗藏陷阱。根据 RFC 4180 规范，当字段值本身包含逗号、换行符或双引号时，必须用双引号将整个字段包裹，而字段内的双引号则需要用两个连续双引号转义。例如，Hello, World 这样包含逗号的值如果不加引号包裹，解析器会错误地将其拆分为两个字段。Agent 主动构造这类边界测试数据，说明它具备了对数据格式规范的理解能力，而非仅仅完成"能跑就行"的最低标准。

Cursor Agent自主测试CSV边界情况

这种自主发现并验证边界情况的能力，已经超越了"写代码"的范畴，开始具备了初级测试工程师的思维模式。值得注意的是，这与传统的自动化测试有着本质区别。传统自动化测试框架（如 Selenium、Cypress、Playwright）依赖开发者预先编写确定性的测试脚本，每次执行相同的操作序列。而 AI Agent 的自主测试本质上是探索性的：Agent 基于对功能需求的理解，自主决定测试什么、如何测试，甚至能发现开发者未明确要求的边界情况。这更接近人类测试工程师的工作方式——结合领域知识和直觉进行探索性测试。当然，这也意味着 Agent 的测试覆盖率不可预测，目前更适合作为人工审查的辅助而非完全替代。

LaTeX 数学公式渲染

第三个功能是为 Excalidraw 添加 LaTeX 渲染支持。LaTeX 是学术界和工程领域广泛使用的排版系统，尤其擅长数学公式的精确渲染。在 Web 应用中实现 LaTeX 渲染通常依赖 KaTeX 或 MathJax 等 JavaScript 库，它们将 LaTeX 语法字符串解析为 DOM 元素或 SVG 图形。将 LaTeX 支持集成到 Excalidraw 这样的画布应用中，需要解决公式的实时渲染、缩放适配、与其他画布元素的交互等技术挑战。

Agent 完成开发后，返回的视频展示了经典的数学公式演示：E=MC²、二次方程公式，甚至还有积分表达式。Agent 成功证明了它能够输入数学方程，并将其正确转换为 LaTeX 格式渲染——这意味着它不仅完成了库的集成，还处理了从用户输入到公式渲染的完整交互链路。

LaTeX公式渲染效果展示

完整的AI开发工作流闭环

这套新功能不仅仅是"AI 写代码 + 录视频"这么简单，它构建了一个完整的自动化开发工作流：

环境搭建：Agent 自动 onboard 到代码库并配置开发环境
功能开发：根据 GitHub Issue 或自然语言描述独立编码
自主测试：使用计算机操作界面，验证功能正常工作
视频证明：录制操作过程作为可审查的工作产物
人工接管：开发者可以随时点击"Take Control"接管桌面环境，以极低延迟与环境交互
代码审查：在 Cursor 内查看所有 diff，确认无误后将自动创建的 PR 标记为 Ready

这个流程的关键在于，开发者的角色从"写代码的人"转变为"审查和决策的人"。你不再需要逐行编写代码，而是审查 Agent 的工作成果——包括代码变更和可视化的功能验证。这种模式与软件工程中"人在回路"（Human-in-the-Loop）的理念高度一致：AI 负责执行密集的编码和测试工作，人类负责高层决策、质量把关和风险判断。

对软件开发范式的深远影响

这一更新释放了一个重要信号：代码审查的未来将从"审查代码"转向"审查行为"。

传统的 Code Review 关注的是代码质量、逻辑正确性和风格规范。但当 AI Agent 成为主要的代码生产者时，逐行审查每一行 AI 生成的代码既不现实也不高效。更合理的方式是：看 Agent 的工作成果是否符合预期，就像审查一个团队成员的工作产出一样。

这种转变在更广泛的行业背景下也有迹可循。GitHub 的数据显示，截至 2024 年底，GitHub Copilot 已经参与生成了超过 30% 的新增代码。Devin、OpenHands 等自主编程 Agent 也在快速迭代。当 AI 生成代码的比例持续攀升，代码审查的瓶颈将不再是"能不能看懂代码"，而是"能不能高效验证代码的行为是否正确"。Cursor 的视频验证方案，正是对这一瓶颈的直接回应。

这也意味着开发者需要培养新的技能——不是写更好的代码，而是更好地定义需求、评估结果、识别潜在风险。软件工程师的核心竞争力正在从"编码能力"向"系统思维和判断力"迁移。具体而言，这包括：精确描述需求的能力（因为模糊的需求会导致 Agent 产出偏差）、快速评估系统行为是否符合预期的能力、以及识别 AI 可能遗漏的安全隐患和架构风险的能力。

目前这一功能已在 Cursor 中上线，开发者可以通过 cursor.com/onboard 设置自己的代码库进行体验。对于任何关注 AI 编程工具发展的人来说，这都是一个值得亲自尝试的里程碑式更新。

从"盲审代码"到"看视频验收"：代码审查的范式转变

Cursor 创始人 Aman Sanger 指出，这正是目前与编程 Agent 协作时的常见体验——AI 写了代码，但你无法确认它是否真的能跑。