工程团队为何削减AI支出?从狂热到理性的转变

引言
当AI热潮席卷整个科技行业时,一个看似矛盾的趋势正在悄然浮现:越来越多的工程部门开始尝试削减AI相关支出。这一观察来自知名技术newsletter《The Pragmatic Engineer》的作者Gergely Orosz,他在最新一期的"The Pulse"专栏中深入探讨了这一现象。
《The Pragmatic Engineer》是科技行业最具影响力的工程管理类newsletter之一,由前Uber工程经理Gergely Orosz创办。其"The Pulse"专栏专注于追踪大型科技公司和高增长创业公司内部的工程实践动态,信息来源主要依赖于作者在行业内的广泛人脉网络和匿名调研,因此往往能捕捉到尚未被主流媒体报道的早期趋势。

AI支出膨胀:从狂热投入到冷静反思
过去两年,几乎每个工程团队都在大举投入AI工具和基础设施。从GitHub Copilot等AI编程助手的订阅费用,到大语言模型API的调用成本,再到GPU算力的采购——AI相关支出已经成为工程部门预算中增长最快的部分。
要理解这笔支出的规模,有必要拆解其具体构成。以GitHub Copilot为例,这款由GitHub与OpenAI联合开发的AI编程助手,基于OpenAI的Codex模型(GPT系列的代码专用变体),能够根据代码上下文实时生成代码建议。其企业版定价为每用户每月19美元起,对于一个500人的工程团队来说,仅这一项工具的年费就接近12万美元。而大语言模型API的成本则更加难以预测——OpenAI、Anthropic、Google等厂商普遍采用按token(文本处理的最小单位,大约相当于0.75个英文单词)计费的模式,GPT-4级别模型的输入价格约为每百万token数美元到数十美元不等,当团队将LLM集成到代码审查、文档生成、测试用例编写等多个工作流中时,token消耗量会迅速攀升。GPU算力方面,NVIDIA H100等高端AI芯片在过去两年间供不应求,云服务商的GPU实例价格居高不下,一台配备8块H100的服务器月租金可达数万美元。
然而,当最初的兴奋逐渐消退,工程领导者们开始面对一个现实问题:这些AI投入的ROI(投资回报率)到底如何?
许多团队发现,AI工具的实际生产力提升并没有达到最初的预期。虽然AI编程助手确实能加速某些编码任务,但在代码审查、调试和维护等环节,AI生成代码反而可能带来额外的工作量。研究显示,AI生成的代码虽然在语法层面通常是正确的,但往往缺乏对项目整体架构的理解,可能引入微妙的逻辑错误、安全漏洞或不符合团队编码规范的模式。开发者需要花费额外时间审查和修正这些代码,这种"审查税"在某些场景下甚至抵消了AI带来的编码速度提升。同时,API调用费用和算力成本却在持续攀升。
工程团队削减AI支出的三大驱动因素
宏观经济压力下的成本控制
科技行业在经历了大规模裁员潮后,成本控制意识显著增强。2022年末至2024年间,Meta、Google、Amazon、Microsoft等科技巨头累计裁员超过数十万人,这场裁员潮的根本原因在于疫情期间的过度扩张和随后的宏观经济收紧。工程部门作为企业最大的成本中心之一,自然成为预算审查的重点。在这种"效率优先"的氛围下,CFO和工程VP们对每一项新增支出都要求更严格的成本效益论证。AI支出作为一项"新增"开支,更容易被放在显微镜下审视。
AI工具效果难以量化
AI工具对工程效率的提升往往难以精确衡量。一个开发者使用Copilot写代码更快了,但整体交付速度是否真的提升了?代码质量是否有所改善?这些问题缺乏明确的数据支撑,使得AI工具的续费决策变得困难。
事实上,软件工程生产力的度量本身就是行业内长期争议的话题。目前业界较为认可的框架包括Google提出的DORA指标(部署频率、变更前置时间、变更失败率、服务恢复时间)和GitHub联合学术界提出的SPACE框架(满意度与幸福感、绩效、活动量、沟通与协作、效率与流畅度)。然而,这些框架衡量的是团队整体的工程效能,要从中分离出某一个AI工具的具体贡献几乎是不可能的。一个团队的交付速度提升了15%,这究竟是因为引入了AI编程助手,还是因为同期进行了微服务拆分、改善了CI/CD流水线,或者仅仅是因为团队成员对新项目更加熟悉了?这种归因困难使得AI工具的价值论证始终停留在定性层面,难以给出令财务部门满意的量化答案。
AI成本增长远超预期
许多团队在试用阶段低估了AI工具的长期成本。当从小规模试点扩展到全团队部署时,订阅费用、API调用量和基础设施成本往往呈指数级增长,远超最初的预算规划。
这种成本膨胀有几个典型模式。首先是"token消耗黑洞"——当开发者习惯了使用LLM辅助工作后,调用频率会远超预期,尤其是在将AI集成到自动化流水线(如自动代码审查、自动生成PR描述、自动化测试生成)中时,API调用量可能比手动使用时高出一个数量级。其次是"模型升级陷阱"——随着GPT-4o、Claude 3.5 Sonnet等更强大模型的发布,团队自然倾向于升级到更新更贵的模型以获得更好的效果,但每一代模型的价格往往也随之上升(尽管单位token价格在下降,但更强模型鼓励了更复杂的使用场景,总支出反而增加)。第三是"基础设施蔓延"——为了降低延迟或保护数据隐私,一些团队选择自托管开源模型,但这需要采购和维护昂贵的GPU服务器,运维成本远超最初的云API方案。
削减不等于放弃:更理性的AI投入策略
有意思的是,削减AI支出并不意味着工程团队在放弃AI。更准确地说,这是从"广撒网"式的AI采购转向更有针对性的投入。
精选核心AI工具而非全面铺开
越来越多的团队开始评估哪些AI工具真正带来了价值,哪些只是"锦上添花"。与其为每个开发者订阅五六种AI工具,不如集中投入到一两个经过验证的核心工具上。
当前AI编程工具市场已经相当拥挤:GitHub Copilot、Cursor、Windsurf(原Codeium)、Amazon CodeWhisperer、Tabnine、Sourcegraph Cody等产品各有侧重。许多团队在探索阶段同时试用了多款工具,但实际使用中发现功能重叠严重——多数工具的核心能力都集中在代码补全和对话式编程上。整合到一两款核心工具不仅能降低订阅成本,还能减少开发者在不同工具间切换的认知负担,并简化IT部门的安全审计和合规管理工作。
建立AI工具的内部评估机制
成熟的工程组织正在建立AI工具的评估框架,通过A/B测试和生产力指标来量化AI投入的实际效果,用数据而非直觉来指导预算分配。
具体而言,一些领先的工程团队已经开始采用对照实验的方法:将工程师随机分为使用AI工具的实验组和不使用的对照组,在数周到数月的周期内跟踪两组在代码提交频率、PR合并时间、bug引入率、开发者满意度等维度的差异。例如,Google内部曾对其AI编程助手进行过大规模的随机对照试验,微软也发布过关于Copilot对开发者生产力影响的内部研究。这种严谨的评估方法虽然实施成本较高,但能提供远比主观感受更可靠的决策依据。一些团队还开始追踪"AI工具采纳率"——即在可以使用AI工具的场景中,开发者实际选择使用的比例,这一指标往往能真实反映工具的实用价值。
关注AI工具的总体拥有成本
除了直接的订阅和API费用,团队开始关注AI工具的隐性成本——包括学习曲线、集成维护,以及AI生成代码的长期维护成本。
总体拥有成本(Total Cost of Ownership, TCO)是企业IT采购中的经典概念,但在AI工具领域,其隐性成本部分往往被严重低估。学习曲线方面,团队需要投入时间培训开发者如何有效使用AI工具、编写高质量的提示词(prompt),这段时间的生产力可能反而下降。集成维护方面,将AI工具接入现有的IDE、CI/CD流水线和代码仓库需要持续的工程投入,且AI工具的频繁更新可能导致集成频繁中断。最值得关注的是AI生成代码的长期维护成本——当原始开发者离职后,接手者面对大量AI生成的、缺乏清晰设计意图的代码时,理解和维护的难度可能显著增加。这种"技术债"的累积效应在短期内不易察觉,但长期来看可能成为一笔巨大的隐性支出。
这一趋势对AI行业意味着什么
这一趋势对AI工具厂商发出了一个重要信号:仅靠AI的光环效应已经不够了,产品必须证明其切实的商业价值。
从技术采纳的宏观视角来看,当前AI工具市场的这一调整与Gartner技术成熟度曲线(Hype Cycle)的经典模型高度吻合。该模型将新技术的采纳过程分为五个阶段:技术萌芽期、期望膨胀期、泡沫破裂低谷期、稳步爬升恢复期和生产成熟期。2023年生成式AI的爆发式增长对应着"期望膨胀期"的顶峰,而当前工程团队开始理性审视AI支出,正是进入"泡沫破裂低谷期"的典型信号。历史上,云计算、微服务、容器化等技术都经历过类似的周期——最初的狂热采纳、随后的冷静反思、最终沉淀为行业标准实践。AI工具大概率也将遵循这一路径,那些在"低谷期"仍能证明自身价值的产品将成为最终的赢家。
对于工程团队而言,这也是一个健康的调整过程。经历了最初的AI狂热后,行业正在进入一个更加理性和务实的阶段。那些能够清晰展示ROI的AI工具将继续获得投入,而那些效果模糊的产品则面临被淘汰的风险。
正如Gergely Orosz通过《The Pragmatic Engineer》持续观察到的,大型科技公司和创业公司的工程实践正在快速演变。AI支出的理性回归,或许正是这个行业走向成熟的标志之一。
总结:从炒作驱动到价值驱动
工程部门削减AI支出的趋势,本质上反映了技术投资从炒作驱动转向价值驱动的过程。这不是AI的失败,而是行业在经历必要的"去泡沫化"。对于从业者来说,关键在于建立科学的评估体系,让每一分AI投入都花在刀刃上。
从更长远的视角来看,这种理性回归实际上有利于AI工具生态的健康发展。当市场从"有AI就买单"转向"证明价值才买单"时,AI工具厂商将被迫更加关注产品的实际效用而非营销叙事,这将推动整个行业向更高质量的方向演进。对于工程领导者而言,当前正是建立AI工具治理体系的最佳时机——制定清晰的评估标准、建立成本监控机制、培养团队的AI素养,这些基础工作将决定组织在AI技术真正成熟时能否高效地捕获其价值。
核心要点
相关推荐

Codex编程智能体全解析:和ChatGPT到底有什么区别?
深入解析OpenAI Codex编程智能体的核心能力,对比Codex与ChatGPT在编程场景中的本质区别,帮助开发者理解AI编程智能体如何改变软件开发模式。

Databricks开源Omni:统一管理所有AI Agent的元框架
Databricks以Apache 2.0协议开源Omni项目,通过元框架统一管理Claude Code、Codex等多个AI Agent。支持统一会话、跨供应商交叉审查、安全策略强制执行和实时协作,彻底解决多Agent协同与供应商锁定问题。

一句话提示词生成10款网页游戏:Claude Code实战体验
资深开发者用Claude Code命令行工具,仅凭一句话自然语言提示词,在一小时内生成2048、五子棋、俄罗斯方块等10款可玩网页游戏并部署上线。深度解析AI编程的真实能力与局限。