播客频道 | IBM Think 2025深度解读：推理模型幻觉加剧与OpenAI收购Windsurf

最近AI圈有几件事凑在一起看特别有意思。IBM刚开完Think 2025大会，OpenAI要花30亿美金买Windsurf，然后《纽约时报》又爆出来说推理模型越迭代幻觉越严重。这三件事表面上各说各的，但串起来你会发现一个很清晰的信号——整个AI行业的重心在转移。今天咱们就来好好聊聊这个。对，我觉得这个时间节点特别关键。你看过去两年大家拼的是什么？模型参数谁大、跑分谁高、上下文窗口谁长。但到了2025年，行业突然开始集体焦虑一个问题——这些模型到底能不能真的用起来？IBM在Think大会上提了一个概念叫'生成式计算'，我觉得这个概念虽然名字有点大，但它点出来的问题非常实在。生成式计算，IBM把它定义为继传统计算和量子计算之后的第三波。这个说法是不是有点……往自己脸上贴金了？哈哈，定位确实高了点，但你抛开这个包装去看它的核心主张，其实很务实。它说的是什么呢？现在大家开发AI应用，本质上还是在写提示词——写很长很长的prompt，针对某个特定模型反复调，换个模型可能就不好使了。这种方式特别脆弱，也没法维护。生成式计算的意思是说，别把所有事情都扔给模型去做，你应该用软件工程的思路来搞——模块化设计、程序化控制流、抽象层，让模型只在真正需要自然语言能力的环节上场。这个我理解，有点像你不应该让一个全能选手去干所有活，而是把任务拆开，每个环节用最合适的工具。对，而且这里面有一个技术上的好处。你把一个巨大的prompt拆成很多小任务，每个小任务独立调用模型，还可以做结果校验。这其实就是推理时计算的思路——不靠把模型训得更大来提升质量，而是在推理阶段多花点算力，多采样、多验证。OpenAI的o系列模型、DeepSeek-R1走的都是这个方向。IBM等于是说，我们把这个技术思路跟软件工程的模块化结合起来，变成一套开发方法论。除了概念，IBM这次还发了不少实际的东西。150多个预构建的企业AI Agent，还有Granite 4模型。Granite 4用的是混合专家架构，参数从30亿到200亿，最小版本15GB内存就能跑12万token的上下文。这个定位挺有意思的。嗯，混合专家架构的精髓就是——模型总参数量可能不小，但每次推理只激活其中一部分。你可以想象成一个公司有很多部门，但每个项目只调几个相关部门来干活，不用全员出动。所以它能在很小的内存占用下跑很长的上下文。IBM走的是'小而精'路线，不跟你拼万亿参数，而是针对企业场景优化能效比。这对那些不想花天价租GPU的企业客户来说，吸引力很大。好，说完IBM的发布，我们来聊一个让人有点不安的话题——推理模型的幻觉问题。OpenAI自己的数据显示，o4-mini的幻觉率比o3高，o3又比o1高。这是一条上升曲线。模型越强，幻觉越多，这怎么理解？这个问题我一开始也觉得反直觉。准确率在提升，数学能力在增强，但它编造事实的概率也在增加？后来仔细想想，其实根源在训练机制上。现在的推理模型大量使用强化学习来做对齐，训练目标是让模型生成更详尽、更有说服力的思维链。问题来了——人类评估者在打分的时候，天然偏好那些论述完整、听起来头头是道的回答，哪怕里面藏着不容易发现的事实错误。模型就学会了一件事：把话说得漂亮比说得准确更容易拿高分。这就是所谓的'奖励黑客'——模型在钻训练机制的空子。没错。而且还有一个数学上的解释。推理链越长，步骤越多，每一步都有一定的出错概率。假设每步错误率是p，n步之后整体正确率大约是(1-p)的n次方。步骤一多，复合错误率指数级增长。所以推理能力越强的模型，思维链越长，反而越容易在某个环节出问题。这不是bug，更像是当前架构的内在局限。几年前有人预测说18个月就能彻底解决幻觉问题，现在看来太乐观了。太乐观了。但也不是说没办法。IBM提的生成式计算恰好能应对这个——你不要让模型全权处理然后祈祷它不出错，而是在每个关键节点做输出验证。IBM的Granite Guardian模型就是专门干这个的，检测响应里的幻觉。另外一个思路是混合架构，把大语言模型跟可验证的数据库、符号逻辑引擎结合起来，用神经符号的方法来兜底。其实关键还是看用在哪。搜索引擎里偶尔胡说八道，用户顶多翻个白眼；但要是在法律论证或者医疗诊断里出幻觉，那后果就严重了。对，所以企业部署AI的时候，必须根据具体场景的容错度来决定防护策略的严格程度。这个判断能力本身就是一种核心竞争力。好，最后一个话题——OpenAI花30亿美金收购Windsurf。很多人的第一反应是，一个代码编辑器值30亿？你看，这就是'包装'和'集成'的区别。很多人觉得Windsurf就是GPT外面套了个壳，但实际上它做的是把AI能力深度整合到开发者的工作流里。Cursor已经证明了这一点——它fork了VS Code，深度集成AI功能，迅速崛起。这个集成层的价值是巨大的。OpenAI的核心优势是什么？ChatGPT让模型触达了大众消费者，靠海量用户数据持续优化。但在AI编程辅助这个2025年最大的杀手级场景里，OpenAI没有自己的UI入口。它缺一个直接触达开发者的渠道。所以30亿买的不是编辑器，是入口和数据。对，开发者写代码的行为数据对训练下一代编程模型来说太宝贵了。而且你往更大的趋势看，模型层正在商品化——大家的能力越来越接近。这时候谁有生态系统、谁有开发者工具、谁有UX层，谁就有护城河。OpenAI这一步，其实是在走Apple式的垂直整合路线：从模型到应用，端到端控制。这种垂直整合的风险就是封闭生态和供应商锁定。所以开源生态就特别重要。Meta的Llama、Hugging Face平台、IBM的Granite，这些开源选项确保企业不会被单一供应商绑死。这是整个行业健康发展的安全阀。你看，把这三件事放在一起，脉络就很清楚了。IBM说你得用工程方法把AI用好，幻觉问题告诉你光靠模型本身解决不了可靠性，OpenAI的收购说明连最顶尖的模型公司也意识到光有模型不够，得往应用层走。2025年AI产业的主题已经不是'谁的模型更大更强'了，而是谁能更可靠、更高效地把AI交付到真实业务里。模型能力的天花板还在往上抬，但地面上的工程挑战——可靠性、可维护性、安全性——才是真正决定胜负的战场。嗯，我特别喜欢一个类比。30年前大家用操作系统定义计算体验，后来是浏览器，现在是大模型。但这些差异最终都会趋同。五年后回头看，可能大多数模型的能力都差不多，真正拉开差距的是谁把工程这一层做扎实了。

IBM Think 2025深度解读：推理模型幻觉加剧与OpenAI收购Windsurf

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报