播客频道 | Cursor Agent重磅更新：AI编程助手学会自己测试代码并录制视频证明

李博！你看到Cursor那个更新了吗？昨天刷到的时候我差点从椅子上跳起来。哈哈你说Agent能自己测代码还录视频那个？看到了看到了，我昨晚研究到两点。对对对，就是那个。你先给我讲讲，这到底意味着什么？因为我第一反应是——这不就是AI学会了自证清白吗？你这个比喻其实挺到位的。以前AI写完代码就扔给你一个diff，你得自己去跑、自己去验。现在它直接说：你看，我不光写了，我还亲自试了，录像在这儿，你自己看。等等，我想先确认一下。它所谓的'使用计算机'，是真的像人一样打开浏览器、点按钮那种？对，就是字面意义上的使用计算机。技术上来说，它用的是类似Anthropic去年发布的Computer Use那套能力——通过截屏识别界面元素，然后模拟鼠标点击、键盘输入。你可以理解为AI长了眼睛和手。它能看到屏幕上有什么，然后决定点哪里、输入什么。这个我在工作中太有感触了。我们团队之前用AI辅助写代码，最大的痛点就是——它写完了，我根本不知道能不能跑。对，Cursor创始人Aman自己也说了，这就是目前跟编程Agent协作最大的摩擦点。你想想，如果你同事提了个PR但告诉你他没测过，你什么感受？我会想打人。哈哈哈，所以现在AI终于学会了——交作业之前先自己检查一遍。那演示里具体做了什么？我看到说是在Excalidraw上加功能？嗯，Excalidraw，就是那个GitHub上九万星的开源白板工具。Aman让Agent直接onboard到这个代码库，Agent自己搭环境、装依赖，然后开始干活。第一个任务是加表格模板支持，Agent独立干了四十分钟，交付了代码加一段操作视频。视频里能看到它自己打开浏览器、导航到本地应用、插入表格。四十分钟？这个时间其实挺真实的，不是那种演示里秒完成的感觉。但最炸裂的是第二个任务。Aman让它支持CSV粘贴转表格，Agent不光实现了功能，还主动去测边界情况。什么意思？什么边界情况？它自己构造了一个包含逗号的CSV数据去测试！你知道CSV里如果字段本身有逗号，必须用引号包起来，否则解析器会把一个字段拆成两个。Agent主动想到了这个坑，然后自己验证了解析是否正确。真的假的？！它自己想到要测这个？没人提醒它？没人提醒。这就是为什么我说这个东西已经超越了写代码的范畴，它开始有初级测试工程师的思维了。等会儿让我想想……这跟传统自动化测试有什么区别？比如我们用Playwright写的那些测试脚本。本质区别在于——传统自动化测试是确定性的，你写好脚本，每次跑一样的流程。但Agent的测试是探索性的，它基于对需求的理解自主决定测什么、怎么测。就像人类QA会凭直觉去戳一些奇怪的corner case。对！但也有个问题——覆盖率不可预测。所以目前更适合当辅助，不能完全替代人工审查。嗯这个我理解。那第三个功能呢？ LaTeX公式渲染。Agent集成了渲染库，还处理了从用户输入到公式显示的完整链路。视频里展示了E=MC²、二次方程、积分表达式，都能正确渲染。好，我现在想聊一个更大的话题。你觉得这对我们这些做产品、写代码的人意味着什么？我先抛个结论——开发者的角色要从编码者变成审查决策者。你们研究员就喜欢先抛结论。你们产品经理不也天天说先讲结论再展开嘛。哈哈行行行，你展开说。你看，GitHub的数据说Copilot已经参与生成了超过30%的新增代码。当这个比例继续涨，逐行审查AI写的代码既不现实也不高效。更合理的方式是什么？看行为、看结果。就像你管理一个团队，你不会去检查每个人每行代码怎么写的，你看的是产出是否符合预期。这我太懂了。那核心竞争力就变成了——你能不能把需求描述清楚，能不能快速判断结果对不对。没错。精确描述需求、评估系统行为、识别AI可能遗漏的安全隐患和架构风险。这三个能力以后比写代码重要得多。说实话，我既兴奋又有点焦虑。兴奋是因为效率确实能提升很多，焦虑是……感觉变化太快了。我倒觉得不用焦虑。你想，从手写汇编到高级语言到框架到低代码，每一次抽象层提升都有人焦虑，但最终是把人从重复劳动里解放出来了。嗯，也是。那我回去就让团队试试，cursor.com/onboard是吧？对，已经上线了。说真的，这种东西光听别人讲没用，自己跑一遍感受完全不一样。行，那下次录播客我让AI先帮我写个大纲，再录个视频证明它写得对。得了吧，到时候连播客都是AI录的，咱俩就负责审查一下语气自不自然就行了。

Cursor Agent重磅更新：AI编程助手学会自己测试代码并录制视频证明

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报