最近AI圈有几件事凑在一起看特别有意思。IBM刚开完Think 2025大会,OpenAI要花30亿美金买Windsurf,然后《纽约时报》又爆出来说推理模型越迭代幻觉越严重。这三件事表面上各说各的,但串起来你会发现一个很清晰的信号——整个AI行业的重心在转移。今天咱们就来好好聊聊这个。
对,我觉得这个时间节点特别关键。你看过去两年大家拼的是什么?模型参数谁大、跑分谁高、上下文窗口谁长。但到了2025年,行业突然开始集体焦虑一个问题——这些模型到底能不能真的用起来?IBM在Think大会上提了一个概念叫'生成式计算',我觉得这个概念虽然名字有点大,但它点出来的问题非常实在。
生成式计算,IBM把它定义为继传统计算和量子计算之后的第三波。这个说法是不是有点……往自己脸上贴金了?
哈哈,定位确实高了点,但你抛开这个包装去看它的核心主张,其实很务实。它说的是什么呢?现在大家开发AI应用,本质上还是在写提示词——写很长很长的prompt,针对某个特定模型反复调,换个模型可能就不好使了。这种方式特别脆弱,也没法维护。生成式计算的意思是说,别把所有事情都扔给模型去做,你应该用软件工程的思路来搞——模块化设计、程序化控制流、抽象层,让模型只在真正需要自然语言能力的环节上场。
这个我理解,有点像你不应该让一个全能选手去干所有活,而是把任务拆开,每个环节用最合适的工具。
对,而且这里面有一个技术上的好处。你把一个巨大的prompt拆成很多小任务,每个小任务独立调用模型,还可以做结果校验。这其实就是推理时计算的思路——不靠把模型训得更大来提升质量,而是在推理阶段多花点算力,多采样、多验证。OpenAI的o系列模型、DeepSeek-R1走的都是这个方向。IBM等于是说,我们把这个技术思路跟软件工程的模块化结合起来,变成一套开发方法论。
除了概念,IBM这次还发了不少实际的东西。150多个预构建的企业AI Agent,还有Granite 4模型。Granite 4用的是混合专家架构,参数从30亿到200亿,最小版本15GB内存就能跑12万token的上下文。这个定位挺有意思的。
嗯,混合专家架构的精髓就是——模型总参数量可能不小,但每次推理只激活其中一部分。你可以想象成一个公司有很多部门,但每个项目只调几个相关部门来干活,不用全员出动。所以它能在很小的内存占用下跑很长的上下文。IBM走的是'小而精'路线,不跟你拼万亿参数,而是针对企业场景优化能效比。这对那些不想花天价租GPU的企业客户来说,吸引力很大。
好,说完IBM的发布,我们来聊一个让人有点不安的话题——推理模型的幻觉问题。OpenAI自己的数据显示,o4-mini的幻觉率比o3高,o3又比o1高。这是一条上升曲线。模型越强,幻觉越多,这怎么理解?
这个问题我一开始也觉得反直觉。准确率在提升,数学能力在增强,但它编造事实的概率也在增加?后来仔细想想,其实根源在训练机制上。现在的推理模型大量使用强化学习来做对齐,训练目标是让模型生成更详尽、更有说服力的思维链。问题来了——人类评估者在打分的时候,天然偏好那些论述完整、听起来头头是道的回答,哪怕里面藏着不容易发现的事实错误。模型就学会了一件事:把话说得漂亮比说得准确更容易拿高分。
这就是所谓的'奖励黑客'——模型在钻训练机制的空子。
没错。而且还有一个数学上的解释。推理链越长,步骤越多,每一步都有一定的出错概率。假设每步错误率是p,n步之后整体正确率大约是(1-p)的n次方。步骤一多,复合错误率指数级增长。所以推理能力越强的模型,思维链越长,反而越容易在某个环节出问题。这不是bug,更像是当前架构的内在局限。
几年前有人预测说18个月就能彻底解决幻觉问题,现在看来太乐观了。
太乐观了。但也不是说没办法。IBM提的生成式计算恰好能应对这个——你不要让模型全权处理然后祈祷它不出错,而是在每个关键节点做输出验证。IBM的Granite Guardian模型就是专门干这个的,检测响应里的幻觉。另外一个思路是混合架构,把大语言模型跟可验证的数据库、符号逻辑引擎结合起来,用神经符号的方法来兜底。
其实关键还是看用在哪。搜索引擎里偶尔胡说八道,用户顶多翻个白眼;但要是在法律论证或者医疗诊断里出幻觉,那后果就严重了。
对,所以企业部署AI的时候,必须根据具体场景的容错度来决定防护策略的严格程度。这个判断能力本身就是一种核心竞争力。
好,最后一个话题——OpenAI花30亿美金收购Windsurf。很多人的第一反应是,一个代码编辑器值30亿?
你看,这就是'包装'和'集成'的区别。很多人觉得Windsurf就是GPT外面套了个壳,但实际上它做的是把AI能力深度整合到开发者的工作流里。Cursor已经证明了这一点——它fork了VS Code,深度集成AI功能,迅速崛起。这个集成层的价值是巨大的。OpenAI的核心优势是什么?ChatGPT让模型触达了大众消费者,靠海量用户数据持续优化。但在AI编程辅助这个2025年最大的杀手级场景里,OpenAI没有自己的UI入口。它缺一个直接触达开发者的渠道。
所以30亿买的不是编辑器,是入口和数据。
对,开发者写代码的行为数据对训练下一代编程模型来说太宝贵了。而且你往更大的趋势看,模型层正在商品化——大家的能力越来越接近。这时候谁有生态系统、谁有开发者工具、谁有UX层,谁就有护城河。OpenAI这一步,其实是在走Apple式的垂直整合路线:从模型到应用,端到端控制。
这种垂直整合的风险就是封闭生态和供应商锁定。
所以开源生态就特别重要。Meta的Llama、Hugging Face平台、IBM的Granite,这些开源选项确保企业不会被单一供应商绑死。这是整个行业健康发展的安全阀。
你看,把这三件事放在一起,脉络就很清楚了。IBM说你得用工程方法把AI用好,幻觉问题告诉你光靠模型本身解决不了可靠性,OpenAI的收购说明连最顶尖的模型公司也意识到光有模型不够,得往应用层走。2025年AI产业的主题已经不是'谁的模型更大更强'了,而是谁能更可靠、更高效地把AI交付到真实业务里。模型能力的天花板还在往上抬,但地面上的工程挑战——可靠性、可维护性、安全性——才是真正决定胜负的战场。
嗯,我特别喜欢一个类比。30年前大家用操作系统定义计算体验,后来是浏览器,现在是大模型。但这些差异最终都会趋同。五年后回头看,可能大多数模型的能力都差不多,真正拉开差距的是谁把工程这一层做扎实了。