播客频道 | Roo Code Arena模式与Plan模式详解：AI编程助手新玩法

最近我在用Roo Code的时候发现它悄悄上了两个新功能，一个叫Arena Mode，一个叫Plan Mode。我当时第一反应是——嚯，这是要让AI模型上擂台互殴啊。哈哈，你这个比喻还挺形象的。Arena Mode确实就是这个意思，它借鉴了LMSys Chatbot Arena的思路。你可能知道那个平台，UC Berkeley搞的，让用户盲评两个大模型的回答，已经收集了上百万次投票了。Roo Code把这套玩法搬到了编程场景里。对，我之前用过Chatbot Arena，就是你不知道左边右边分别是哪个模型，纯凭回答质量来投票。但是那个主要是聊天场景嘛，编程场景的盲测其实更有意思，因为代码好不好是有更客观标准的。没错，而且你想啊，现在市面上模型太多了——Claude、GPT-4、Gemini、DeepSeek，每家都说自己编程能力强。但开发者实际选模型的时候，很多时候就是凭感觉，或者看网上别人的测评。问题是别人的场景跟你的场景可能完全不一样。Arena Mode的价值就在于，你可以用自己真实的编程任务去测，而且是盲测，消除了品牌偏见。品牌偏见这个点我觉得特别重要。说实话，很多人包括我自己，都会有一种先入为主的印象，觉得Claude写代码就是比别的强。但如果蒙上名字让你看两段代码，你未必能分出来谁是谁。对，其实不同模型在不同任务上的表现差异非常大。比如Claude在大型代码库重构方面确实很强，但GPT-4在算法题和API集成上可能更有优势，DeepSeek在中文编程场景和成本控制上又很有竞争力。所以根本不存在一个"万能冠军"，Arena Mode就是让你在自己的实际工作流里找到最合适的那个。而且我在想，如果大量开发者都在用这个功能，积累下来的数据其实可以形成一个专门针对编程能力的模型排行榜，这比那些标准化的benchmark有意义多了。你说到点子上了。传统的基准测试像HumanEval这些，其实存在数据污染和过拟合的问题，模型厂商可以针对性地刷分。但Arena Mode是真实用户、真实任务、盲评打分，这种众包评估方式更能反映模型的真实水平。好，聊完Arena Mode，我们来说说Plan Mode。这个功能我个人其实更兴奋一点，因为它解决了一个我被坑过好多次的问题。哈哈，让我猜猜——是不是AI直接动手改代码，改完之后你发现它把不该改的文件也改了，或者用了一种你完全不想要的实现方式？太对了！有一次我让它重构一个模块，结果它把我半个项目的import路径都改了，我花了一个小时才恢复回来。当时就在想，你能不能先告诉我你打算怎么干，我同意了你再动手？ Plan Mode就是干这个的。它的工作流是这样的：AI先分析你的需求，理解项目上下文，然后制定一个详细的实施计划——要改哪些文件、每一步做什么、用什么方案。然后它会停下来等你确认，你说OK了它才开始真正动代码。这其实就是软件工程里"先设计后编码"的思路嘛，只不过现在是AI来做设计，人来审批。对，这个在学术界叫"Human-in-the-Loop"，人在回路中。其实这个思路在AI Agent研究里有很深的理论基础，从经典的AI规划理论到现在微软的AutoGen、斯坦福的Generative Agents，都在用"先规划后执行"的范式。研究表明，把复杂任务拆成规划和执行两个阶段，错误率会显著降低。嗯，而且我觉得这个功能在团队协作里特别有用。你想，AI生成的计划其实可以直接拿去跟同事讨论，"你看AI建议这么改，我们觉得行不行？"这比直接甩一堆代码diff给别人看要友好多了。没错，还有一个场景我觉得很有价值，就是学习。新手开发者可以通过看AI的规划思路来理解，面对一个复杂任务，高手是怎么拆解问题的。这比直接看最终代码学到的东西多得多。说到这儿，我想把这两个功能放在一起看。Arena Mode解决的是"用哪个模型"的问题，Plan Mode解决的是"怎么用模型"的问题。这背后其实反映了AI编程助手的一个大趋势。你说得对。我觉得有两条线特别清晰。第一条是从单一模型到多模型灵活切换。未来可能是这样的——需求分析阶段用一个擅长理解自然语言的模型，代码生成阶段换一个编程能力强的，代码审查再换一个推理能力突出的。这种"模型路由"的思路正在成为主流。第二条线我猜是从黑盒到透明？对，Plan Mode就是这条线的代表。以前AI改完代码你只能看结果，现在你能看到它的推理过程和行动计划。当开发者能理解AI在想什么的时候，才会真正信任它，才敢把更复杂的任务交给它。其实你看业界其他工具也在往这个方向走，Cursor有diff预览，GitHub Copilot Workspace有多步骤计划视图，大家都在找自动化效率和人类控制之间的平衡点。嗯，总结一下的话，AI编程助手正在从"能用"走向"好用"。就像开发工具从文本编辑器进化到IDE，从手动部署进化到CI/CD，每一步都是在给开发者更强的能力和更精细的控制。Roo Code这次的两个功能，虽然看起来不大，但方向是对的。而且我觉得更有意思的是它预示的未来——AI编程助手不再只是一个写代码的工具，它在变成一个能规划、能解释、能对比、能协作的智能开发伙伴。这个转变，可能比模型本身的能力提升还要重要。

Roo Code Arena模式与Plan模式详解：AI编程助手新玩法

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报

Roo Code Arena模式与Plan模式详解：AI编程助手新玩法

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报