Cursor Agent重磅更新:AI编程助手学会自己测试代码并录制视频证明

Cursor Agent可自主编码、测试并录制视频,代码审查从审代码转向审行为。
Cursor发布重磅更新,其编程Agent现在能像人类开发者一样使用计算机测试代码并录制工作视频。通过在Excalidraw开源项目上的实战演示,Agent独立完成了表格模板、CSV粘贴转表格、LaTeX公式渲染三大功能的开发与自主测试,甚至能主动发现并验证边界情况。这标志着代码审查范式从逐行审查代码转向审查AI的行为成果,开发者角色也从编码者转变为审查决策者。
Cursor 最近发布了一项重磅更新——其编程 Agent 现在可以像真正的程序员一样,使用计算机测试自己的代码修改,并录制工作视频作为"工作证明"。这意味着代码审查的范式正在发生根本性转变:未来的审查重点不再是逐行检查代码,而是看 AI 能否用实际行动证明自己的工作成果。
从"盲审代码"到"看视频验收":代码审查的范式转变
想象一下这个场景:你的同事让你审查一个 Pull Request,结果你发现他甚至没有测试过自己的修改。你大概率会感到不满。Pull Request(PR)是现代软件开发中的核心协作机制,最早由 GitHub 在 2008 年推广。开发者在完成功能开发后,向主代码库提交合并请求,其他团队成员对代码变更(即 diff)进行审查,确认逻辑正确、风格一致后才允许合并。这一流程被称为 Code Review,是保障代码质量的关键防线。然而,随着 AI 生成代码的比例快速增长,传统逐行审查的模式面临效率瓶颈——审查者需要理解 AI 的编码意图,而 AI 生成的代码量往往远超人类手写的速度。
Cursor 创始人 Aman Sanger 指出,这正是目前与编程 Agent 协作时的常见体验——AI 写了代码,但你无法确认它是否真的能跑。
现在,Cursor Agent 具备了使用计算机的能力。这一能力源于近年来多模态大模型的突破——2024 年 Anthropic 率先发布了 Claude 的 Computer Use 功能,允许 AI 通过截屏识别界面元素并模拟鼠标点击、键盘输入等操作。其技术基础包括视觉理解模型(识别 UI 元素的位置和状态)、动作规划(将高层目标分解为具体的操作序列)以及反馈循环(根据操作结果调整后续行为)。Cursor 将这一能力深度集成到编程工作流中,使 Agent 不仅能编写代码,还能像人类开发者一样启动浏览器、导航到本地运行的应用、操作界面元素,并将整个过程录制为视频。开发者在审查代码时,不仅能看到代码 diff,还能观看 Agent 的操作录像,直观确认功能是否正常工作。
实战演示:用Cursor Agent为Excalidraw添加三大功能
环境搭建与代码库自动接入
在演示中,Aman 选择了 Excalidraw 作为测试项目。Excalidraw 是一个基于 React 和 TypeScript 构建的开源在线白板工具,以其手绘风格的视觉效果著称,在 GitHub 上拥有超过 9 万颗星标,被广泛用于技术架构图、头脑风暴和协作设计。选择这样一个真实的、大规模的开源项目作为演示对象,能够有效检验 AI Agent 在真实工程环境中的能力边界。
Aman 让 Cursor Agent 自动 onboard 到这个代码库,Agent 成功完成了环境搭建,并返回了一段视频,展示它能够使用计算机导航并验证软件正常运行。
这个环节本身就很有价值——对于复杂项目,环境配置往往是最耗时的步骤之一,涉及依赖安装、环境变量配置、数据库初始化等一系列操作。Agent 能够自主完成这一过程并提供可视化验证,大幅降低了新成员或新工具接入项目的门槛。
添加表格模板支持
Aman 从 GitHub Issues 中挑选了一个功能需求:为 Excalidraw 添加表格支持。他将 GitHub Issue 链接粘贴给 Agent,Agent 随后独立工作了约 40 分钟,最终返回了一段视频,展示它如何在浏览器中导航到本地运行的软件,并成功插入新创建的表格模板。

CSV 粘贴转表格:Agent 的巧妙实现方案
更有趣的是后续需求。Aman 注意到 GitHub 上还有一个请求——支持将 CSV 数据粘贴为表格模板。他向 Agent 提出了这个追加需求,Agent 又工作了 20 分钟后交付了成果。

Agent 的实现方式相当巧妙:它打开一个新标签页,通过 URL 将数据直接注入浏览器,然后复制粘贴到 Excalidraw 中生成表格。更令人印象深刻的是,Agent 还主动思考并处理了边界情况——它构造了一个包含逗号的 CSV 数据集(需要用引号包裹),然后将这段文本复制粘贴到 Excalidraw 中,验证了数据能被正确解析。
这里值得展开说明 CSV 格式的复杂性:CSV(Comma-Separated Values)看似简单,实则暗藏陷阱。根据 RFC 4180 规范,当字段值本身包含逗号、换行符或双引号时,必须用双引号将整个字段包裹,而字段内的双引号则需要用两个连续双引号转义。例如,Hello, World 这样包含逗号的值如果不加引号包裹,解析器会错误地将其拆分为两个字段。Agent 主动构造这类边界测试数据,说明它具备了对数据格式规范的理解能力,而非仅仅完成"能跑就行"的最低标准。

这种自主发现并验证边界情况的能力,已经超越了"写代码"的范畴,开始具备了初级测试工程师的思维模式。值得注意的是,这与传统的自动化测试有着本质区别。传统自动化测试框架(如 Selenium、Cypress、Playwright)依赖开发者预先编写确定性的测试脚本,每次执行相同的操作序列。而 AI Agent 的自主测试本质上是探索性的:Agent 基于对功能需求的理解,自主决定测试什么、如何测试,甚至能发现开发者未明确要求的边界情况。这更接近人类测试工程师的工作方式——结合领域知识和直觉进行探索性测试。当然,这也意味着 Agent 的测试覆盖率不可预测,目前更适合作为人工审查的辅助而非完全替代。
LaTeX 数学公式渲染
第三个功能是为 Excalidraw 添加 LaTeX 渲染支持。LaTeX 是学术界和工程领域广泛使用的排版系统,尤其擅长数学公式的精确渲染。在 Web 应用中实现 LaTeX 渲染通常依赖 KaTeX 或 MathJax 等 JavaScript 库,它们将 LaTeX 语法字符串解析为 DOM 元素或 SVG 图形。将 LaTeX 支持集成到 Excalidraw 这样的画布应用中,需要解决公式的实时渲染、缩放适配、与其他画布元素的交互等技术挑战。
Agent 完成开发后,返回的视频展示了经典的数学公式演示:E=MC²、二次方程公式,甚至还有积分表达式。Agent 成功证明了它能够输入数学方程,并将其正确转换为 LaTeX 格式渲染——这意味着它不仅完成了库的集成,还处理了从用户输入到公式渲染的完整交互链路。

完整的AI开发工作流闭环
这套新功能不仅仅是"AI 写代码 + 录视频"这么简单,它构建了一个完整的自动化开发工作流:
- 环境搭建:Agent 自动 onboard 到代码库并配置开发环境
- 功能开发:根据 GitHub Issue 或自然语言描述独立编码
- 自主测试:使用计算机操作界面,验证功能正常工作
- 视频证明:录制操作过程作为可审查的工作产物
- 人工接管:开发者可以随时点击"Take Control"接管桌面环境,以极低延迟与环境交互
- 代码审查:在 Cursor 内查看所有 diff,确认无误后将自动创建的 PR 标记为 Ready
这个流程的关键在于,开发者的角色从"写代码的人"转变为"审查和决策的人"。你不再需要逐行编写代码,而是审查 Agent 的工作成果——包括代码变更和可视化的功能验证。这种模式与软件工程中"人在回路"(Human-in-the-Loop)的理念高度一致:AI 负责执行密集的编码和测试工作,人类负责高层决策、质量把关和风险判断。
对软件开发范式的深远影响
这一更新释放了一个重要信号:代码审查的未来将从"审查代码"转向"审查行为"。
传统的 Code Review 关注的是代码质量、逻辑正确性和风格规范。但当 AI Agent 成为主要的代码生产者时,逐行审查每一行 AI 生成的代码既不现实也不高效。更合理的方式是:看 Agent 的工作成果是否符合预期,就像审查一个团队成员的工作产出一样。
这种转变在更广泛的行业背景下也有迹可循。GitHub 的数据显示,截至 2024 年底,GitHub Copilot 已经参与生成了超过 30% 的新增代码。Devin、OpenHands 等自主编程 Agent 也在快速迭代。当 AI 生成代码的比例持续攀升,代码审查的瓶颈将不再是"能不能看懂代码",而是"能不能高效验证代码的行为是否正确"。Cursor 的视频验证方案,正是对这一瓶颈的直接回应。
这也意味着开发者需要培养新的技能——不是写更好的代码,而是更好地定义需求、评估结果、识别潜在风险。软件工程师的核心竞争力正在从"编码能力"向"系统思维和判断力"迁移。具体而言,这包括:精确描述需求的能力(因为模糊的需求会导致 Agent 产出偏差)、快速评估系统行为是否符合预期的能力、以及识别 AI 可能遗漏的安全隐患和架构风险的能力。
目前这一功能已在 Cursor 中上线,开发者可以通过 cursor.com/onboard 设置自己的代码库进行体验。对于任何关注 AI 编程工具发展的人来说,这都是一个值得亲自尝试的里程碑式更新。
相关推荐
科技前沿GitHub Agent HQ发布:AI编程工具进入平台化竞争时代
GitHub Universe大会发布Agent HQ平台,统一管理编码Agent,Copilot升级支持多模型集成。同期OpenAI完成重组,Anthropic新模型测试,NVIDIA开源系列AI模型,AI编程工具格局加速整合。
科技前沿Gemini 3.5 Flash在GDPval基准上实现巨大飞跃
Google Gemini 3.5 Flash在GDPval基准测试中超越Gemini 3.1 Pro,轻量级Flash模型借助后训练技术逼近前沿水平,重新定义性能与成本的平衡点,为AI应用开发者带来重大利好。
科技前沿Google Gemini Antigravity周配额三倍提升,AI编程不再受限
Google Gemini团队再次将Antigravity周配额提升至三倍,继日配额提升后再次加码。本文解析此次配额调整对开发者的实际影响,以及在AI编程助手竞争格局中的战略意义。