AI写代码占比超80%:每4个月能力翻倍意味着什么

引言:这不是未来,这是当下
前不久,Anthropic 发布了一篇重磅文章《当AI开始构建自己的时候》(When AI Starts Building Itself)。这篇文章没有在畅想未来,而是在记录一个正在发生的事实——AI已经开始帮AI写代码、独立接管任务,而且它不是辅助角色,是真正意义上的接管。
Anthropic 由前 OpenAI 副总裁 Dario Amodei 和 Daniela Amodei 兄妹于2021年创立,其核心使命是"AI安全研究"。公司提出了"负责任的扩展政策"(Responsible Scaling Policy),承诺在模型能力达到特定危险阈值时暂停扩展,直到安全措施跟上。在当前 OpenAI、Google DeepMind、Anthropic 三足鼎立的AI竞赛格局中,Anthropic 的差异化定位恰恰在于:它试图在推动能力边界的同时,保持对风险的清醒认知。而这篇文章,正是这种立场的一次集中表达。
文章中披露的几组数据和真实案例,足以让每一个从业者重新审视自己的位置。
能力飙升:四个月翻一倍的恐怖节奏
判断AI能力强不强,最直观的方式是看它能独立搞定多长时间的任务。来看这条增长曲线:
- 2024年3月:Claude 能完成人类大约 4 分钟的工作量
- 一年后:提升到 1.5 小时
- 2025年至今:已经能处理 12 小时级别的任务
注意这个节奏——它能搞定的任务长度,差不多每四个月就翻一倍。这种指数级增长模式在AI领域并非孤例,它与著名的"摩尔定律"有着相似的底层逻辑——摩尔定律描述的是集成电路上晶体管数量约每两年翻一倍,而AI能力的增长曲线甚至比摩尔定律更陡峭。驱动这种增长的力量包括:模型架构的持续优化(如 Transformer 架构的各种变体)、训练数据规模和质量的提升、推理时计算(inference-time compute)技术的突破,以及强化学习从人类反馈(RLHF)等对齐技术的进步。值得注意的是,这里衡量的不是传统的基准测试分数,而是"能独立完成的任务时长"——这是一个更贴近真实生产力的指标,因为它综合反映了AI的规划能力、错误恢复能力和长程上下文理解能力。
按照这个速度外推,到明年它可能就能接管人类需要花好几周才能完成的工作。
再看 Anthropic 公司内部的数据,更加直观:到2025年5月,他们代码库里超过80%的代码都是 Claude 写的,而一年多前这个数字还只是个位数。结果就是,每个工程师每天的交付代码量是两年前的八倍。工程师们干的活,已经从"写代码"变成了"审代码"。
这个数据背后反映的是一种全新的软件开发范式——"AI原生开发"(AI-native development)。在这种模式下,工程师的角色从"代码生产者"转变为"代码审查者和架构决策者"。这与传统的代码自动生成工具(如早期的代码模板、低代码平台)有本质区别:Claude 不是在填充模板,而是在理解需求后自主编写逻辑完整的代码。这也引发了一个行业性问题:当大部分代码由AI编写时,代码的可维护性、安全审计和技术债务管理将面临全新挑战——毕竟,审查AI写的代码和审查人类写的代码,所需的技能和心智模型可能完全不同。

不只是快,是真的能干:三个真实案例
光看数字可能还没有实感,文章中记录了三个发生在 Anthropic 内部的真实事件。
案例一:修Bug——一人四年的活,AI一口气干完
今年4月,Claude 一口气交付了800多个修复,将某一类 AI 数据 API 错误的发生率压低了一千倍。负责盯着它干活的工程师估算,这事换人来做,至少得花四年。
案例二:救火——两小时搞定三天的排查
一次线上事故,工程师只给 Claude 丢了一段问题说明和一个服务器权限,剩下的全靠它自己。Claude 一项一项排查,最后揪出一个极其冷门的调试开关,复现、确认、给出修复方案,两小时搞定。这种活,人类通常需要两到三天。
案例三:独立科研——AI啃下97%的开放课题
这是最震撼的一个。Anthropic 放手让一群 AI 智能体去独立做一个开放性研究课题。两个人类研究员花了一周,只啃下了23%的问题。而 Claude 这群 AI 烧掉了800小时算力、花费一万八千美元,啃下了97%——而且里面每一个实验都是 AI 自己设计的。
这个案例涉及的是当前AI领域最前沿的方向之一——AI Agent(智能体)。与传统的单次问答式AI不同,AI Agent 具备自主规划、工具调用、环境交互和迭代反馈的能力。它可以将一个复杂的研究问题分解为多个子任务,自主设计实验方案,执行实验,分析结果,并根据结果调整下一步策略。这里的"800小时算力"也揭示了一个重要趋势:AI科研的成本结构正在从"人力密集型"转向"算力密集型"。这种通过大规模并行AI智能体来"暴力搜索"解空间的方式,在药物发现、材料科学等领域已经开始展现威力,而 Anthropic 的这个案例证明,它在AI研究自身也同样有效。

判断力:人类最后的护城河正在被追上
你可能会想:AI再强,不也得人来决定方向吗?判断力应该是人的护城河。
文章里有一个测试,看完让人后背发凉。他们专门挑研究员在真实工作中走错路的那个瞬间,截图下来问 AI:"换你,下一步该怎么走?"然后让另一个 AI 来盲评,看谁的建议更好。
这种实验设计在AI评测领域被称为"反事实评估"(counterfactual evaluation)——它不是在理想化的基准测试中考AI,而是在真实的、充满不确定性的决策场景中考验AI的判断。用另一个AI进行盲评则借鉴了学术界的同行评审机制,目的是消除人类评审可能存在的偏见(比如人类可能倾向于认为人类的判断更好)。
结果是:
- 2024年11月:AI 赢的比例是 51%(基本持平)
- 2025年4月:AI 赢的比例飙升到 64%
从51%到64%的跃升发生在短短五个月内,这个速度意味着AI在"元认知"层面——即"知道什么时候该换方向、什么时候该坚持"——正在快速进步。这种能力过去被认为是人类独有的,因为它依赖于直觉、经验和对不确定性的感知。
连"该往哪走"这种最像人类直觉的判断,AI 都在一点点追上来。这意味着,执行力之后,判断力也不再是安全区。
三种未来:窗口正在关闭
文章勾勒了接下来可能的三种走向:
第一种:增长放缓。 曲线逐渐变平,现有能力扩散到各行各业。世界会变,但留给人类的适应时间最充裕。

第二种:持续加速。 AI 大幅提效,但方向盘还握在人手里。一个100人的公司能干出1万人甚至10万人的活。组织形态将被彻底重塑。
第三种:AI造AI。 AI 开始自己设计、改进下一代 AI,人退到旁边只做监督和审核。这就是那个听起来有点吓人的词——递归自我改进。
"递归自我改进"(Recursive Self-Improvement)是AI安全领域最核心的议题之一,也是"智能爆炸"(Intelligence Explosion)假说的核心机制。这个概念最早由数学家 I.J. Good 在1965年提出:如果一台超级智能机器能够设计出比自己更聪明的机器,那么就会出现一个"智能爆炸",人类智能将被远远甩在后面。在当前语境下,递归自我改进意味着AI不仅能写应用代码,还能改进自身的训练流程、优化自身的模型架构、甚至设计更好的训练数据筛选策略。这与普通的"AI辅助编程"有本质区别——后者是AI帮人写代码,前者是AI帮AI变得更强。一旦这个循环启动且速度超过人类监督能力,控制权可能在极短时间内发生不可逆转移。
Anthropic CEO Dario Amodei 自己说,他最担心的是后两种情况,因为它们跑得太快,留给社会准备的窗口太小了。
人还剩下什么?
文章里有句话值得反复咀嚼:
写代码、跑实验这种执行层面的活,人力成本已趋近于零。人还剩下的优势是判断力——选哪些问题值得做,什么时候一条路走不通该及时收手。
但真正戳到我的,是一位工程师的自白:
"顺利的日子里,我老觉得自己做的事情都不重要了,全被自动化了,还干得比我又快又好。可总有那些日子,所有东西都在崩……就那一刻我才发现,我好像已经不太清楚自己一直以来到底在干啥。"

这段话道出了一个深层焦虑:当执行被接管后,如果你从未认真思考过自己到底在做什么、为什么做,那失去的不只是工作,而是意义感本身。 这种"意义危机"并非AI时代独有——工业革命时期的手工匠人、自动化浪潮中的流水线工人都曾经历类似的身份认同冲击。但这一次不同的是,被替代的不再是体力劳动或重复性脑力劳动,而是曾被认为需要创造力和专业判断的高技能工作。这迫使我们重新思考一个根本问题:当"做事"不再是人的专属能力时,人的价值究竟锚定在哪里?
写在最后:窗口还开着,但不会一直开着
所以真正该问的不是"AI会不会取代我",而是:
- 你有没有在认真锤炼自己的判断力?
- 你有没有真正搞懂手上在做的事情到底是什么?
- 你是在被工具推着走,还是在用工具实现自己的意图?
Anthropic 在文章末尾表达了一个愿望:他们想给世界留一个能踩刹车的选项,让安全研究能跟得上技术狂奔的脚步。这正是 Anthropic 一贯倡导的"负责任的扩展"理念的体现——他们开创了"宪法AI"(Constitutional AI)方法,通过让AI根据一组明确的原则进行自我约束,而非完全依赖人类反馈来实现安全对齐。他们想把政策制定者、研究员、还有像你我这样的普通人都拉到一起,认真讨论这件事。
因为这扇窗还开着——但它不会一直开着。
每四个月翻一倍的速度,留给我们思考和准备的时间,可能比想象中少得多。
相关推荐

PiDeck 0.5.0 发布:一周十版迭代,桌面端 AI Agent 全面重构
PiDeck 0.5.0 完成从 PiDesktop 到 PiDeck 的品牌升级,一周内迭代十个版本近百项改动,涵盖设计系统重构、暗色模式适配、局域网共享、Git 分支管理、双层代理配置等核心功能,从能用迈向好用。

Claude Fable 5实测:价格翻倍,效果值得吗?
通过落地页设计和网站重建两项实测,对比Claude Fable 5与Opus 4.8的实际表现差异。详解Fable 5的API定价、适用场景及性价比分析,帮你判断是否值得为双倍成本买单。

AI素养导论:教师如何建立系统认知框架
教师AI素养入门指南:从AI发展简史、大语言模型本质到Agent时代的范式变革,帮助教师建立系统认知框架,掌握工具选择策略与使用风险底线,让AI真正服务于教学。