Anthropic伦敦开发者大会:Claude模型升级、企业Agent平台与开发工具全面进化

Anthropic首次将"Code with Claude"开发者大会带出旧金山,来到伦敦,向全球开发者展示了Claude生态的全面升级。从模型能力的指数级增长,到企业级Agent平台的成熟,再到Claude Code开发工具的深度进化,这场大会勾勒出了AI辅助开发的未来图景。



AI正在重塑"从想法到产品"的距离
Anthropic产品负责人Boris以一个充满情怀的故事开场——他13岁时在TI-83计算器上编写程序通过数学考试,用HTML美化eBay页面卖宝可梦卡。那种"写出代码、看到它运行"的魔法感,正是编程最原始的魅力。
然而,随着行业发展,编译器、类型检查器、构建系统、包管理器层层叠加,"从想法到运行"的距离越来越远。而现在,AI正在让这段距离急剧缩短——"你描述一个问题,程序就出现了。就是那种计算器的感觉,只不过这台计算器还能写出分布式系统。"
这不是空话。Spotify利用Claude Code构建了后台Agent,每月将超过1000个PR合并到生产环境,迁移时间缩短超过90%。社会服务软件公司Binti则用Claude API将寄养家庭许可流程缩短了20天——这不仅是效率指标,更意味着孩子能更快与家人建立联系。
Claude模型能力的指数跃迁:从分钟级到持续运行
研究产品管理团队的Lisa回顾了Claude模型家族的演进历程:Opus 3是第一款真正擅长长代码编写的模型;Sonnet 3.5实现了安全使用计算机的能力;Sonnet 3.7引入了"先思考再回答"的范式;Opus 4则意外地展现出生成复杂Excel和PowerPoint文档的能力。
最新的Opus 4.7和Mythos Preview标志着一个质变——Claude已经能够端到端负责结果,并运用判断力完成高度模糊的任务。过去12个月,Anthropic发布了8个前沿模型,每一步都在前一步基础上构建。
任务跨度:衡量AI模型进化的核心指标
Lisa提出了一个极具洞察力的衡量维度——"任务跨度"(Task Span),即模型能在不失去主线的情况下持续工作多久。一年前,模型只能可靠地连续工作几分钟;如今,Agent已经可以连续运行数小时;未来的Claude将能够持续运行,成为"始终在线、无需被告知就知道该怎么做"的主动型Agent。
这意味着使用范式的根本转变:不再是"让Claude写项目更新",而是"让Claude本周把项目保持在正轨上";不再是"让Claude生成财务预测",而是"让Claude负责并持续更新这份预测"。
一个惊人案例:Mythos发现了OpenBSD中存在27年的漏洞
大会上披露的一个令人震撼的案例是,Mythos模型阅读了整个OpenBSD源代码,发现了一个存在27年的漏洞——这个漏洞经受住了所有人类评审者、模糊测试器和静态分析器近30年的检验。这不仅展示了模型在代码理解上的深度,更预示着AI在安全审计领域的巨大潜力。
Claude Platform:帮助企业跨越AI线性采用的鸿沟
尽管模型能力呈指数增长,大多数企业仍在以线性方式采用AI。Angela和Katelyn指出,阻碍企业的两个核心问题是:获得正确结果太难(需要提示优化、工具构建等大量工作),以及需要同时兼顾速度和可扩展性。
顾问策略:前沿智能,五分之一成本
一个巧妙的解决方案是"顾问策略"(Advisor Pattern)——用Sonnet级别的小模型作为执行器,用Opus作为顾问。当小模型遇到困难时,它可以向大模型寻求建议。实践中,这种组合不仅让Sonnet表现远超单独使用,甚至成本更低,因为Opus的建议帮助Sonnet更高效地完成工作。客户IfLego反馈称,这种策略达到了前沿模型的质量,成本仅为原来的五分之一。
Cloud Managed Agents:从月到天的Agent交付加速
Cloud Managed Agents是面向Agent的编排框架,配备生产级基础设施,让团队能以天为单位(而非月)构建生产级Agent。Asana基于此构建了AI Teammates,实现人类与Agent在项目中的直接协作。
大会发布了两项关键新功能:自托管沙箱(让Claude在企业自有服务器上执行工作)和MCP隧道(安全访问防火墙后的内部MCP服务器)。现场演示中,一个虚构公司Counter的增长型Agent通过MCP隧道安全访问内部数据仓库,主动分析A/B测试结果,自动调用实验胜出方案,并在自托管沙箱中编写清理代码——整个过程无需人工干预。
Claude Code进化:从同步编码到异步自动化
覆盖终端、IDE、桌面和移动端
Claude Code已经从最初的CLI工具发展为全方位的开发平台。新增的桌面版提供全屏图形界面,内置预览功能和侧边栏控制面板;CLI中的Agent视图让终端用户也能一目了然地管理多个并行任务。移动端支持(iOS和Android)让开发者可以随时随地发起任务——"你不再被困在办公桌前,可以去公园摸摸草地,仍然能把任务完成。"
Routines功能:让Claude自己提示自己
这可能是本次大会最具变革性的功能。Routines是一种"更高阶的提示"——开发者一次配置,Claude Code即可按计划运行、响应Webhook或API请求。Boris在演示中展示了一个监控GitHub Issue的Routine:队友提交Issue后,Routine异步发现并启动Claude处理,开发者醒来就能看到准备合并的PR。
另一个强大的应用是CI自动修复——Routine持续监控PR状态,自动修复CI失败、代码评审意见和合并冲突。演示中,CI因网络超时出现偶发失败,Routine自动诊断为底层基础设施问题并重试,负责PR的工程师甚至不会看到那个红色标记。
正如Boris所说:"默认做法不再是'我要去给Claude发提示',而是'我会让Claude来向Claude提问'。"
企业验证:Shopify与MercadoLibre的大规模实践
Shopify已在全公司范围内使用Claude Code,覆盖工程师、产品经理、设计师和数据科学家。MercadoLibre拥有2.3万名工程师的团队全员使用Claude Code,在人工监督下已审阅超过50万个PR,现代化了超过9000个应用,目标是在Q3实现90%的自主编码。
一个动人的细节是:那些多年没提交过代码的管理者和副总裁们,如今再次开始交付代码。Claude Code正在把编码重新交到那些在过去十年里只参与评审和路线图会议的人手中。
给开发者的行动建议
Lisa在演讲中给出了几条关键建议:
- 为下一版Claude设计,而非当前版本——最终胜出的开发者是那些架构已准备好吸收下一次巨大跃升的人
- 减少脚手架——随着模型变得更聪明,过去有帮助的脚手架现在可能反而束缚Claude
- 持续制定更难的评估——当一个过去总是失败的任务开始通过时,就是你该发布新功能的信号
- 把模型升级当作商业机会——通过自动化评估和测试流程,让升级变得更容易
这场大会传递的核心信息清晰而有力:AI能力的指数增长已经不是问题,真正的挑战在于我们多快把它投入应用。而开发者,正是弥合这一差距的关键角色。
相关推荐

Claude Code vs Codex深度对比:技术趋同下谁更值得选
深度对比Claude Code与OpenAI Codex在先发优势、技术架构、市场份额和工程稳定性方面的差异。从18:4的创新领先到功能像素级对齐,解析AI编程工具趋同时代的终极选择标准。

Claude Code每天必用的5个技巧:让AI反过来盘问你
分享Claude Code高效编程的5个实用技巧:Grill Me逼问需求、Brainstorming方案选型、Writing Plan执行计划、TDD测试驱动、Debugging精准修复,串成完整AI编程工作流,告别模糊需求和来回返工。

AITS实测:API+Web+App自动化测试一站式搞定
深度实测AITS智能测试平台,覆盖API接口自动化、Web自动化、App真机云测及性能压测全链路。详解智能驾驶舱、断言规则复用、脚本自动生成等核心功能,帮助测试团队告别重复劳动,提升测试效率。