最近我在用Roo Code的时候发现它悄悄上了两个新功能,一个叫Arena Mode,一个叫Plan Mode。我当时第一反应是——嚯,这是要让AI模型上擂台互殴啊。
哈哈,你这个比喻还挺形象的。Arena Mode确实就是这个意思,它借鉴了LMSys Chatbot Arena的思路。你可能知道那个平台,UC Berkeley搞的,让用户盲评两个大模型的回答,已经收集了上百万次投票了。Roo Code把这套玩法搬到了编程场景里。
对,我之前用过Chatbot Arena,就是你不知道左边右边分别是哪个模型,纯凭回答质量来投票。但是那个主要是聊天场景嘛,编程场景的盲测其实更有意思,因为代码好不好是有更客观标准的。
没错,而且你想啊,现在市面上模型太多了——Claude、GPT-4、Gemini、DeepSeek,每家都说自己编程能力强。但开发者实际选模型的时候,很多时候就是凭感觉,或者看网上别人的测评。问题是别人的场景跟你的场景可能完全不一样。Arena Mode的价值就在于,你可以用自己真实的编程任务去测,而且是盲测,消除了品牌偏见。
品牌偏见这个点我觉得特别重要。说实话,很多人包括我自己,都会有一种先入为主的印象,觉得Claude写代码就是比别的强。但如果蒙上名字让你看两段代码,你未必能分出来谁是谁。
对,其实不同模型在不同任务上的表现差异非常大。比如Claude在大型代码库重构方面确实很强,但GPT-4在算法题和API集成上可能更有优势,DeepSeek在中文编程场景和成本控制上又很有竞争力。所以根本不存在一个"万能冠军",Arena Mode就是让你在自己的实际工作流里找到最合适的那个。
而且我在想,如果大量开发者都在用这个功能,积累下来的数据其实可以形成一个专门针对编程能力的模型排行榜,这比那些标准化的benchmark有意义多了。
你说到点子上了。传统的基准测试像HumanEval这些,其实存在数据污染和过拟合的问题,模型厂商可以针对性地刷分。但Arena Mode是真实用户、真实任务、盲评打分,这种众包评估方式更能反映模型的真实水平。
好,聊完Arena Mode,我们来说说Plan Mode。这个功能我个人其实更兴奋一点,因为它解决了一个我被坑过好多次的问题。
哈哈,让我猜猜——是不是AI直接动手改代码,改完之后你发现它把不该改的文件也改了,或者用了一种你完全不想要的实现方式?
太对了!有一次我让它重构一个模块,结果它把我半个项目的import路径都改了,我花了一个小时才恢复回来。当时就在想,你能不能先告诉我你打算怎么干,我同意了你再动手?
Plan Mode就是干这个的。它的工作流是这样的:AI先分析你的需求,理解项目上下文,然后制定一个详细的实施计划——要改哪些文件、每一步做什么、用什么方案。然后它会停下来等你确认,你说OK了它才开始真正动代码。
这其实就是软件工程里"先设计后编码"的思路嘛,只不过现在是AI来做设计,人来审批。
对,这个在学术界叫"Human-in-the-Loop",人在回路中。其实这个思路在AI Agent研究里有很深的理论基础,从经典的AI规划理论到现在微软的AutoGen、斯坦福的Generative Agents,都在用"先规划后执行"的范式。研究表明,把复杂任务拆成规划和执行两个阶段,错误率会显著降低。
嗯,而且我觉得这个功能在团队协作里特别有用。你想,AI生成的计划其实可以直接拿去跟同事讨论,"你看AI建议这么改,我们觉得行不行?"这比直接甩一堆代码diff给别人看要友好多了。
没错,还有一个场景我觉得很有价值,就是学习。新手开发者可以通过看AI的规划思路来理解,面对一个复杂任务,高手是怎么拆解问题的。这比直接看最终代码学到的东西多得多。
说到这儿,我想把这两个功能放在一起看。Arena Mode解决的是"用哪个模型"的问题,Plan Mode解决的是"怎么用模型"的问题。这背后其实反映了AI编程助手的一个大趋势。
你说得对。我觉得有两条线特别清晰。第一条是从单一模型到多模型灵活切换。未来可能是这样的——需求分析阶段用一个擅长理解自然语言的模型,代码生成阶段换一个编程能力强的,代码审查再换一个推理能力突出的。这种"模型路由"的思路正在成为主流。
第二条线我猜是从黑盒到透明?
对,Plan Mode就是这条线的代表。以前AI改完代码你只能看结果,现在你能看到它的推理过程和行动计划。当开发者能理解AI在想什么的时候,才会真正信任它,才敢把更复杂的任务交给它。其实你看业界其他工具也在往这个方向走,Cursor有diff预览,GitHub Copilot Workspace有多步骤计划视图,大家都在找自动化效率和人类控制之间的平衡点。
嗯,总结一下的话,AI编程助手正在从"能用"走向"好用"。就像开发工具从文本编辑器进化到IDE,从手动部署进化到CI/CD,每一步都是在给开发者更强的能力和更精细的控制。Roo Code这次的两个功能,虽然看起来不大,但方向是对的。
而且我觉得更有意思的是它预示的未来——AI编程助手不再只是一个写代码的工具,它在变成一个能规划、能解释、能对比、能协作的智能开发伙伴。这个转变,可能比模型本身的能力提升还要重要。