IBM Think 2025深度解读:推理模型幻觉加剧与OpenAI收购Windsurf

2025年AI产业从模型竞赛转向工程落地与垂直整合
IBM播客讨论了三大AI热点:IBM Think 2025大会提出"生成式计算"概念,主张用软件工程实践替代脆弱的提示工程,并发布150+企业AI Agent和Granite 4混合专家模型;推理模型幻觉率随能力提升反而上升,根源在于强化学习的激励错位;OpenAI 30亿美元收购Windsurf旨在弥补编程辅助领域的入口短板。三者共同揭示AI产业正从模型竞赛转向可靠交付与垂直整合。
本期IBM播客节目《Mixture of Experts》汇聚了多位IBM研究员与产品负责人,围绕三大热点展开深度讨论:IBM Think 2025大会的重磅发布、推理模型幻觉问题的回潮,以及OpenAI以30亿美元收购Windsurf的战略意图。这些话题串联起来,勾勒出当前AI产业从模型竞赛转向工程落地、从技术炫技转向价值交付的关键转折。
IBM Think 2025:生成式计算、150+企业AI Agent与Granite 4
生成式计算:AI开发的新范式
IBM在本届Think大会上提出了一个引人注目的概念——生成式计算(Generative Computing)。Granite技术产品管理总监Kate Soule将其定义为继传统计算和量子计算之后的"第三波计算浪潮"。
其核心思想并不复杂:当前基于大模型的应用开发,本质上仍停留在"提示工程"阶段——开发者编写冗长、脆弱且针对特定模型过度优化的提示词。这种方式既不可维护,也不安全。生成式计算主张将软件工程和计算机科学的最佳实践引入AI开发,通过抽象层、程序化控制流和模块化设计,让模型只在真正需要自然语言能力的环节发挥作用,而非"把所有事情都交给模型去做"。
Kate特别强调,这种结构化方法还能充分利用推理时计算(Inference Time Compute)技术——将一个庞大的提示拆解为多个小任务,进行多次生成,最终合成更丰富的响应,同时有效降低计算成本和延迟。推理时计算是近两年大模型领域的重要技术方向,其核心思想是在模型推理阶段投入更多计算资源以换取更高质量的输出,而非一味增大模型训练规模。传统的Scaling Law强调通过增加训练数据和参数量来提升模型能力,但推理时计算提供了另一条路径:通过多次采样、自我验证、思维链分解等技术,在推理阶段动态分配算力。OpenAI的o系列模型和DeepSeek-R1都是这一方向的代表。IBM提出的生成式计算概念,本质上是将这种推理时计算技术与软件工程的模块化设计相结合——不再依赖单次巨型提示获取结果,而是通过程序化编排将复杂任务拆解为多个可控的子任务,每个子任务独立调用模型并进行结果校验,从而在提升输出质量的同时降低单次推理的计算开销。
150+预构建AI Agent与Granite 4模型发布
IBM通过Watson X Orchestrate平台发布了超过150个企业级预构建AI Agent,可与Salesforce、Workday、Adobe等主流企业工具无缝集成。首席研究科学家Kauthar强调,这些Agent不仅开箱即用,还支持基于Granite和Mistral等模型的灵活定制,体现了模块化和多模型协作的设计理念。

在模型层面,IBM在大会期间悄然发布了Granite 4模型预览版。这是一个混合专家架构(Mixture of Experts)模型,参数规模从30亿到200亿不等,最小版本仅需15GB内存即可运行12万token的上下文窗口。混合专家架构(MoE)是一种条件计算技术,其核心设计是在模型内部设置多个并行的"专家"子网络,并通过一个门控网络(Gating Network)动态决定每个输入token应由哪些专家处理。这意味着虽然模型的总参数量可能很大,但每次推理时只激活其中一小部分参数,从而在保持模型容量的同时大幅降低实际计算量。Google的Switch Transformer是MoE在大模型中的早期成功应用,而Mistral的Mixtral 8x7B和DeepSeek-V3则将这一架构推向了主流。Granite 4采用MoE架构,其实际推理时激活的参数量远小于总参数量,这正是它能在仅15GB内存下运行12万token上下文窗口的技术基础。相比动辄万亿参数的巨型模型,Granite 4走的是"小而精"路线——针对特定行业场景优化,强调能效比和成本效益,定位为大模型的高效互补方案。
推理模型的幻觉困境:越聪明越不可靠?
数据证实:AI幻觉率确实在上升
《纽约时报》近期的一篇报道揭示了一个令人不安的趋势:随着推理模型(Reasoning Models)的迭代进化,幻觉问题不降反升。OpenAI自己的模型卡数据显示,o4-mini的幻觉率高于o3,o3又高于o1——这是一条清晰的上升曲线。

Skylar坦言对此感到困惑:"准确率在提升,数学能力在增强,但幻觉也在增加。"Kate则给出了一个更深层的解释:这本质上是激励机制的错位。
当前的推理模型经过大量强化学习训练,核心目标是让模型更加"健谈"——生成更详尽、更有说服力的思维链。这里需要理解其背后的技术机制:当前推理模型普遍采用基于人类反馈的强化学习(RLHF)及其变体(如GRPO、DPO等)进行训练后对齐。在这一过程中,模型通过奖励信号学习生成人类偏好的输出。问题在于,人类评估者在面对复杂推理任务时,往往倾向于给予那些论述详尽、逻辑链条完整的回答更高评分,即使这些回答中包含了难以察觉的事实性错误。这就形成了所谓的"奖励黑客"(Reward Hacking)现象——模型学会了生成看起来令人信服但未必准确的长篇推理链。人类天然偏好那些听起来有理有据的长篇论述,却不擅长对其进行事实核查。这与早期模型"精确给出答案"的目标函数产生了根本性冲突。更长的思维链意味着更多的生成步骤,从概率角度看,每一步推理都有一定的错误概率p,当推理链包含n步时,整体正确率约为(1-p)^n,步骤越多,复合错误率呈指数级增长。这从数学上解释了为什么推理能力更强的模型反而表现出更高的幻觉率。
Kauthar进一步指出,这些模型使用的是概率预测而非逻辑推演来生成响应。多步推理中的每一步都会引入复合误差效应,而现有的溯源和解释工具根本跟不上模型的复杂度。"即使展示给用户的解释,有时也并不反映模型的实际内部过程。"
幻觉是LLM的内在局限,而非待修复的Bug
几年前有研究者乐观预测"18个月内幻觉问题将被彻底解决"。现实证明这过于天真。讨论中形成的共识是:幻觉可能是当前LLM架构的内在局限,而非简单的工程缺陷。

但这并不意味着无计可施。Kate指出,生成式计算的方法论恰好能应对这一挑战:与其让模型"全权处理"并祈祷不出错,不如构建程序化的控制流程,在每个关键节点进行输出验证。IBM的Granite Guardian模型就能检测任何基于事实的响应或函数调用中的幻觉。
Skylar则提出了一个务实的评估框架:关键在于下游用例的容错度。搜索引擎中的幻觉令人烦恼但不致命;法律论证或医疗诊断中的幻觉则可能造成灾难性后果。企业在部署AI时,必须根据具体用例的容错度来决定防护策略的严格程度。
Kauthar总结道,未来可能需要混合架构——将LLM与可验证数据库或符号逻辑引擎结合,而非单纯依赖强化学习来"修补"幻觉问题。这种神经符号(Neuro-Symbolic)方法将大语言模型的自然语言理解能力与传统知识图谱、规则引擎的精确推理能力相结合,有望在保持模型灵活性的同时显著提升事实准确性。
OpenAI 30亿美元收购Windsurf:模型公司的焦虑
为什么花30亿买一个"代码编辑器"?
OpenAI即将以30亿美元收购编程环境Windsurf的消息引发了广泛讨论。有人质疑:如果AGI真的即将到来,为什么要花天价买一个"带AI功能的文本编辑器"?

Kate的分析直指要害:OpenAI之所以成为今天的巨头,是因为ChatGPT这个聊天界面让模型触达了大众消费者,由此获得了海量用户数据来持续优化模型。但在2025年最大的杀手级用例——AI编程辅助领域,OpenAI缺少自己的UI入口和开发者触达渠道。AI编程辅助已成为2024-2025年增长最快的AI应用场景之一,全球已有数千万开发者在日常工作中使用此类工具。这一市场的竞争格局呈现出明显的分层:底层是模型提供商(OpenAI、Anthropic、Google等),中间是集成开发环境和编辑器(VS Code、JetBrains等),上层是将模型能力与开发工作流深度整合的产品。Windsurf(原名Codeium)正是这一市场中的重要玩家,与GitHub Copilot、Cursor、Tabnine等产品直接竞争。Cursor通过fork VS Code并深度集成AI功能迅速崛起,证明了"集成层"的巨大价值。收购Windsurf使OpenAI获得了一个成熟的IDE产品、活跃的开发者社区以及宝贵的代码编写行为数据——这些数据对于训练下一代编程模型至关重要,本质上是在弥补这一战略短板。
Skylar提出了一个精妙的重新定义:与其称之为"GPT的薄包装",不如将Windsurf视为集成商(Integrator)。OpenAI擅长构建模型,但在将模型集成到实际开发工作流方面存在明显短板。"包装"和"集成"之间的差距,恰恰就是30亿美元的价值所在。
AI垂直整合时代来临
Kauthar将这一收购置于更宏观的产业趋势中:随着模型层逐渐商品化,垂直化的AI副驾驶(面向金融、法律、科学、医疗等领域)正成为新的竞争焦点。拥有UX层是一种战略性布局——当模型性能趋同时,生态系统和开发者工具才是真正的护城河。
Kate进一步指出,这种趋势可能导致AI行业出现类似Apple的垂直整合模式:从硬件到模型到应用的端到端控制。垂直整合在科技行业有着深远的历史——Apple通过控制从芯片(M系列)到操作系统(iOS/macOS)再到应用商店的完整链条,建立了极高的用户粘性和利润率。AI行业正在出现类似趋势:NVIDIA从GPU硬件延伸到CUDA软件生态和推理框架,Google控制着从TPU芯片到Gemini模型再到搜索/Android应用的全栈,而OpenAI则通过收购Windsurf向应用层延伸。这种垂直整合的风险在于可能形成封闭生态和供应商锁定。这也是为什么维护一个强健的开源AI生态系统至关重要——开源模型(包括Meta的Llama系列、Hugging Face平台以及IBM自身的Granite模型)确保企业客户拥有替代选择,避免被单一供应商的技术栈绑定,同时也推动了整个行业的技术透明度和创新速度。
Skylar则用一个历史类比收尾:30年前,人们用操作系统定义计算体验;后来是浏览器;现在是LLM。但这些差异最终都会趋同。"五年后回头看,你会发现大多数选项其实差不多。"
结语:2025年AI产业的范式转移
从IBM的生成式计算到推理模型的幻觉困境,再到OpenAI的垂直整合野心,2025年的AI产业正在经历一次深刻的范式转移:从"谁的模型更大更强"到"谁能更可靠、更高效地将AI交付到真实业务场景中"。模型能力的天花板或许还在不断抬升,但地面上的工程挑战——可靠性、可维护性、安全性——才是决定AI能否真正创造商业价值的关键战场。
核心要点
- IBM提出'生成式计算'概念,主张用软件工程最佳实践重构AI应用开发,取代脆弱的提示工程模式
- 推理模型的幻觉率随能力提升反而上升(o4-mini > o3 > o1),根源在于强化学习中冗长思维链与事实准确性的激励错位
- OpenAI 30亿美元收购Windsurf本质是弥补编程辅助领域的UI入口和开发者触达短板,将'包装'升级为'集成'
- AI产业正从模型竞赛转向垂直整合,模型层商品化趋势下,生态系统和UX层成为新护城河
- IBM发布Granite 4混合专家模型(3B-20B参数),走小而精路线,强调能效比和企业级部署效率
相关推荐
科技前沿GitHub Agent HQ发布:AI编程工具进入平台化竞争时代
GitHub Universe大会发布Agent HQ平台,统一管理编码Agent,Copilot升级支持多模型集成。同期OpenAI完成重组,Anthropic新模型测试,NVIDIA开源系列AI模型,AI编程工具格局加速整合。
科技前沿Gemini 3.5 Flash在GDPval基准上实现巨大飞跃
Google Gemini 3.5 Flash在GDPval基准测试中超越Gemini 3.1 Pro,轻量级Flash模型借助后训练技术逼近前沿水平,重新定义性能与成本的平衡点,为AI应用开发者带来重大利好。
科技前沿Google Gemini Antigravity周配额三倍提升,AI编程不再受限
Google Gemini团队再次将Antigravity周配额提升至三倍,继日配额提升后再次加码。本文解析此次配额调整对开发者的实际影响,以及在AI编程助手竞争格局中的战略意义。