李博!你看到Cursor那个更新了吗?昨天刷到的时候我差点从椅子上跳起来。
哈哈你说Agent能自己测代码还录视频那个?看到了看到了,我昨晚研究到两点。
对对对,就是那个。你先给我讲讲,这到底意味着什么?因为我第一反应是——这不就是AI学会了自证清白吗?
你这个比喻其实挺到位的。以前AI写完代码就扔给你一个diff,你得自己去跑、自己去验。现在它直接说:你看,我不光写了,我还亲自试了,录像在这儿,你自己看。
等等,我想先确认一下。它所谓的'使用计算机',是真的像人一样打开浏览器、点按钮那种?
对,就是字面意义上的使用计算机。技术上来说,它用的是类似Anthropic去年发布的Computer Use那套能力——通过截屏识别界面元素,然后模拟鼠标点击、键盘输入。
你可以理解为AI长了眼睛和手。它能看到屏幕上有什么,然后决定点哪里、输入什么。
这个我在工作中太有感触了。我们团队之前用AI辅助写代码,最大的痛点就是——它写完了,我根本不知道能不能跑。
对,Cursor创始人Aman自己也说了,这就是目前跟编程Agent协作最大的摩擦点。你想想,如果你同事提了个PR但告诉你他没测过,你什么感受?
我会想打人。
哈哈哈,所以现在AI终于学会了——交作业之前先自己检查一遍。
那演示里具体做了什么?我看到说是在Excalidraw上加功能?
嗯,Excalidraw,就是那个GitHub上九万星的开源白板工具。Aman让Agent直接onboard到这个代码库,Agent自己搭环境、装依赖,然后开始干活。
第一个任务是加表格模板支持,Agent独立干了四十分钟,交付了代码加一段操作视频。视频里能看到它自己打开浏览器、导航到本地应用、插入表格。
四十分钟?这个时间其实挺真实的,不是那种演示里秒完成的感觉。
但最炸裂的是第二个任务。Aman让它支持CSV粘贴转表格,Agent不光实现了功能,还主动去测边界情况。
什么意思?什么边界情况?
它自己构造了一个包含逗号的CSV数据去测试!你知道CSV里如果字段本身有逗号,必须用引号包起来,否则解析器会把一个字段拆成两个。Agent主动想到了这个坑,然后自己验证了解析是否正确。
真的假的?!它自己想到要测这个?没人提醒它?
没人提醒。这就是为什么我说这个东西已经超越了写代码的范畴,它开始有初级测试工程师的思维了。
等会儿让我想想……这跟传统自动化测试有什么区别?比如我们用Playwright写的那些测试脚本。
本质区别在于——传统自动化测试是确定性的,你写好脚本,每次跑一样的流程。但Agent的测试是探索性的,它基于对需求的理解自主决定测什么、怎么测。
就像人类QA会凭直觉去戳一些奇怪的corner case。
对!但也有个问题——覆盖率不可预测。所以目前更适合当辅助,不能完全替代人工审查。
嗯这个我理解。那第三个功能呢?
LaTeX公式渲染。Agent集成了渲染库,还处理了从用户输入到公式显示的完整链路。视频里展示了E=MC²、二次方程、积分表达式,都能正确渲染。
好,我现在想聊一个更大的话题。你觉得这对我们这些做产品、写代码的人意味着什么?
我先抛个结论——开发者的角色要从编码者变成审查决策者。
你们研究员就喜欢先抛结论。
你们产品经理不也天天说先讲结论再展开嘛。
哈哈行行行,你展开说。
你看,GitHub的数据说Copilot已经参与生成了超过30%的新增代码。当这个比例继续涨,逐行审查AI写的代码既不现实也不高效。更合理的方式是什么?看行为、看结果。
就像你管理一个团队,你不会去检查每个人每行代码怎么写的,你看的是产出是否符合预期。
这我太懂了。那核心竞争力就变成了——你能不能把需求描述清楚,能不能快速判断结果对不对。
没错。精确描述需求、评估系统行为、识别AI可能遗漏的安全隐患和架构风险。这三个能力以后比写代码重要得多。
说实话,我既兴奋又有点焦虑。兴奋是因为效率确实能提升很多,焦虑是……感觉变化太快了。
我倒觉得不用焦虑。你想,从手写汇编到高级语言到框架到低代码,每一次抽象层提升都有人焦虑,但最终是把人从重复劳动里解放出来了。
嗯,也是。那我回去就让团队试试,cursor.com/onboard是吧?
对,已经上线了。说真的,这种东西光听别人讲没用,自己跑一遍感受完全不一样。
行,那下次录播客我让AI先帮我写个大纲,再录个视频证明它写得对。
得了吧,到时候连播客都是AI录的,咱俩就负责审查一下语气自不自然就行了。