Anthropic 40万次AI编程实测:领域专业知识才是关键

Anthropic 最新发布了一份基于 Claude Code 的大规模研究报告,覆盖 40 万次交互会话、23.5 万用户、长达 7 个月的全量数据。结论直接颠覆了一个根深蒂固的假设——会编程才能用好 AI。真正决定你能否用好 AI 编程工具的,从来不是代码能力,而是你对所解决问题的领域理解深度。
AI 编程已成为生产力常态
这份研究的数据时间跨度从 2024 年 10 月到 2025 年 4 月。GitHub 上有 Coding Agent 活动的项目数量比去年年底翻了一倍多,Claude Code 用户平均每周使用 20 小时——这不是偶尔尝鲜,而是当作核心生产力工具在用。
这里需要理解 Claude Code 与传统代码补全工具的本质区别。Claude Code 是 Anthropic 推出的命令行 AI 编程工具,用户在终端中通过自然语言与 Claude 模型交互,完成代码编写、调试、重构等任务。与 GitHub Copilot 的 Tab 补全不同,Claude Code 是一个具备自主行动能力的 Coding Agent——能够自行读取文件、执行命令、运行测试、修改多个文件,形成完整的工作闭环。所谓 Coding Agent,是指能够在给定目标后自主规划步骤、调用工具、迭代执行的 AI 系统,而不仅仅是被动响应单次请求。
研究团队将每次交互会话分成了 9 种工作模式:写新代码、修 Bug、跑测试、编排流水线、部署运维、理解现有系统、规划变更、分析数据、写文档。数据显示,56% 的会话在做纯代码相关的事(写新功能、修 Bug、跑测试),运维占 17%,规划和探索 14%,分析和写文档 13%。
你可能没注意到,将近 1% 的会话产出物根本不是代码。Claude Code 正在从一个编程工具,演变为通用的知识工作平台。
人机分工的真相:人做决策,AI 做执行
研究中最核心的发现之一,是关于人和 AI 之间的决策分工。团队构建了一个决策归因分类器(Decision Attribution Classifier),将每次会话中的所有决策分为两类:
- 计划决策:做什么、用什么方案、什么算完成
- 执行决策:改哪个文件、写什么代码、跑什么命令
这种分类方法借鉴了人机交互(HCI)领域中「控制点分析」的思路:在一段协作过程中,每当出现方向性选择(比如选用哪种技术方案、是否需要重构)或操作性选择(比如修改哪个文件、使用哪个 API),分类器会根据上下文判断该决策的发起方。计划决策和执行决策的区分,本质上对应的是管理学中「战略层」与「战术层」的经典分工。

答案非常清晰:人类做 70% 的计划决策,Claude 做 80% 的执行决策。一个典型会话大约有四轮交互,每轮用户发一条 prompt,Claude 平均触发 10 个动作(有时超过 100 个),每轮产出约 2400 个英文单词。这也是为什么研究中会出现如此高的动作数——每一个动作都是 Agent 自主决定的一次工具调用,包括读取文件、搜索代码库、执行终端命令、写入文件等。
更有意思的是,这个数字跟控制权直接相关。当人类掌控执行权时,Claude 每轮做约 8 个动作;当 Claude 接管计划权时,每轮做 16 个。

控制权越大,自主活动越多。 你决定做什么,AI 决定怎么做——这就是当前最高效的人机协作模式。这个发现用数据证明了一个重要结论:最优的人机协作并非「人写伪代码、AI 翻译成真代码」,而是「人定义问题和验收标准、AI 自主完成全部实现细节」。
7 个月间用户工作构成的显著变化
在这 7 个月里,用户的工作构成发生了显著变化:
- 修 Bug 的比例从 33% 降到 19%,几乎减半
- 运维从 14% 涨到 21%
- 写文档和分析数据从 10% 涨到 20%,几乎翻倍
研究团队还通过与自由职业市场(如 Upwork、Fiverr 等平台)的任务定价对比,估算了每次任务的经济价值。这种方法被称为「市场替代法」——如果同样的任务交给自由职业者完成需要支付多少费用,那么 AI 辅助完成该任务就创造了相应的经济价值。虽然这个估算框架没有考虑质量差异和迭代成本等因素,但提供了一个可量化的参考基准。
平均每次任务价值涨了 27%,其中构建类任务涨 43%,运维类涨 34%,修 Bug 类涨 32%。
人们正在从「修修补补」转向「端到端做事」——部署、运行流水线、写报告,用 AI 完成的工作越来越完整、越来越有价值。任务价值上涨 27% 这个数字尤其值得关注,它说明用户并非只是用 AI 做更多同质化的简单任务,而是在逐步承担更复杂、更完整、经济价值更高的工作。
专业度是任务级别的,不是人级别的
这是整个研究中最颠覆认知的部分。团队给每个用户的专业度打了分(五个等级),但评分标准不是看职称,而是看在具体任务上的实际能力。评分依据三个信号:
- 你的指令有多精确
- 你要求 Claude 验证什么
- 是你纠正 Claude,还是 Claude 纠正你
举两个例子:一个高级工程师第一次问 REST API 的问题,在 REST 这个任务上他是新手。REST API(Representational State Transfer Application Programming Interface)是当今 Web 服务最主流的接口设计风格,由 Roy Fielding 在 2000 年的博士论文中提出,基于 HTTP 协议通过 GET、POST、PUT、DELETE 等标准方法对资源进行操作。即使是资深开发者,在面对自己不熟悉的具体技术领域时,也会表现出新手特征——指令模糊、无法有效验证 AI 输出、容易被 AI 的错误回答误导。
另一个例子:一个从没写过 Python 的会计,但他清楚地知道脚本必须执行哪些对账规则,在这个任务上他就是专家。
这与认知科学中「专业知识的领域特异性」理论高度一致:国际象棋大师的记忆优势只存在于有意义的棋局中,面对随机摆放的棋子,他们的表现与新手无异。同理,在 AI 编程的语境下,你的专业度不取决于你会多少种编程语言,而取决于你对当前任务所在领域的理解深度。
专业度是任务级别的,不是人级别的。 你在某个领域是专家,换个领域可能就是新手。

数据上的差距令人震撼:专家用户每条指令触发的 Claude 动作数是新手的两倍多,输出量是五倍(12 个动作 vs 5 个,3200 词 vs 600 词)。而且在控制了工作模式、任务价值、月份、职业和模型家族等变量之后,这个差距依然显著。
谁在用 AI 编程?非技术职业增长最快
研究团队用了一个巧妙的方法推断用户职业——不是看写代码就判定是程序员,而是看项目上下文、文件结构、引用材料和使用术语。
计算机和数学类职业确实是最大群体,但第二大群体是商业和金融运营,然后是艺术设计和媒体、管理。增长最快的几个职业类别是:管理、销售、法律。非软件职业的采用速度正在加速。
这一趋势的背后逻辑很清晰:当 AI Agent 能够自主处理代码实现的全部细节时,「会不会写代码」就不再是使用门槛。真正的门槛变成了「你能不能清楚地描述你要解决的问题」。一个律师比任何程序员都更清楚合同审查的逻辑应该是什么,一个销售经理比任何数据工程师都更清楚 CRM 数据应该怎么分析才有业务意义。AI 编程工具本质上是在把「领域知识」直接转化为「可执行的软件」,编程语言不再是必经的中间层。
从新手到初级:收益最大的关键跨越
研究定义了两个成功指标:
- 严格成功:有硬证据证明任务完成(如测试通过、程序成功运行、产出了可验证的结果)
- 至少部分成功:会话产出了有用的东西(如生成了可参考的代码片段、提供了有价值的分析思路)
结果如下:
| 专业度 | 严格成功率 | 至少部分成功率 |
|---|---|---|
| 新手 | 15% | 77% |
| 中级及以上 | 28%-33% | 91%-92% |
遇到困难时差距更大:新手只有 4% 最终成功,专家有 15%,差了将近 4 倍。更扎心的是放弃率——新手遇到困难后放弃的比例是 19%,其他人只有 5%-7%。新手更容易在挣扎中放弃。

收益最大的跨越是从新手到初级。 这是最关键的一步。你不需要精通,你需要胜任——对领域有基本掌握,就能拿到大部分好处。这里的「胜任」意味着你至少能做到三件事:给出足够具体的指令让 AI 理解你的意图,知道应该验证哪些关键点来确保输出质量,以及在 AI 犯错时能够识别并纠正。这三项能力都来自领域知识,而非编程技能。
核心启示:未来竞争力在于领域理解
这份研究的核心结论可以归纳为几点:
- AI 编程工具正在让编程背景变得不那么重要。指挥 AI Agent 的能力来自领域专业知识,不是写代码的能力。
- 一个懂合同法的律师现在能搭出以前搭不了的工具,一个懂对账规则的会计现在能写出真正能用的脚本。
- 大部分收益来自「胜任」而非「精通」。你不需要是世界顶尖,你只需要知道自己在干什么。
当然也需要保持清醒。研究团队自己也指出了局限性:无法观测真实世界的结果(代码写出来到底被用了还是扔了),而且这只是交互式使用的数据,非交互式的 headless 模式完全没有纳入统计。所谓 headless 模式,是指 Claude Code 在没有人类实时参与的情况下自主运行的场景,典型应用包括 CI/CD(持续集成/持续部署)流水线中的自动代码审查、GitHub Issue 的自动处理、Pull Request 的自动生成等。在这种模式下,AI Agent 根据预设的触发条件和指令模板独立完成任务,人类只在最终审核环节介入。这意味着报告中的数据可能低估了 AI 编程工具的实际使用规模和影响范围。
但趋势已经非常明确:未来知识工作的竞争,不在于谁会写代码,而在于谁真正理解自己要解决的问题。 如果你在某个领域有扎实的理解,AI 就是你最强大的杠杆。
相关推荐

AI早报:Codex跨主机会话、Claude Code重置限额、AlphaFold负责人加入Anthropic
6月20日AI早报:OpenAI Codex支持本地与远程主机交接会话,Claude Code修复3%用户额度Bug,AlphaFold负责人John Jumper离开DeepMind加入Anthropic,欧盟押注4000亿参数开源模型,Cloudflare推出AI Agent临时账户功能。

Costco商业模式解析:收谁的钱就替谁办事
深度解析Costco(好市多)商业飞轮:毛利率仅14%却靠会员费盈利,精简SKU压低价格,92%续费率构成自带刹车系统。对比亚马逊Prime,揭示会员制商业模式的核心逻辑。

日本打车平台Go完成886亿日元IPO,押注无人出租车应对司机荒
日本打车应用Go完成今年最大IPO,募资886亿日元。面对严峻的司机短缺危机,Go将资金投向Robotaxi无人驾驶出租车和行业并购两大方向,加速日本自动驾驶出行落地。