谷歌神秘图像模型Mondrian曝光,Sonnet 4.5将停用

谷歌、xAI、Anthropic、OpenAI等AI巨头密集发布新产品和战略调整
本文汇总了近期AI行业多项重要动态:谷歌新图像模型Mondrian在Arena测试中表现亮眼,预计5月19日发布;xAI推出编程助手Grok Build并短暂曝光计算机操控功能;Anthropic计划停用Claude Sonnet 4.5;OpenAI全面关闭微调服务API,认为GPT 5.5已足够强大;字节跳动将AI基础设施支出上调25%至约2000亿人民币。
谷歌新图像模型「Mondrian」现身Arena测试
AI竞技场(Arena)中近日出现了一个代号为「Mondrian」的神秘图像生成模型。该模型自称来自Google DeepMind,业内普遍推测这是下一代Nano Banana模型。
值得一提的是,AI竞技场(Chatbot Arena)是由UC伯克利LMSYS团队创建的开放式模型评测平台,采用「盲测对战」机制:用户在不知道模型身份的情况下与两个模型同时对话,根据回答质量投票选出胜者,并使用源自国际象棋排名体系的Elo评分系统进行动态排名。正因其评测方式贴近真实用户体验,各大AI厂商在正式发布新模型前,往往会以匿名代号将模型投入Arena进行「预热测试」,Mondrian此次现身正是这一惯例的体现。
「Nano Banana」是谷歌DeepMind图像生成模型系列的内部代号体系之一,延续了谷歌以水果或食物命名实验性模型的传统。谷歌在图像生成领域的技术路线主要依托Imagen系列(基于扩散模型)与Gemini多模态能力的融合演进,近年来已推出Imagen 3等商用级产品。Mondrian这一代号来源于荷兰抽象派画家蒙德里安,以几何色块构图著称,以此命名图像模型颇具寓意。

从已参与测试的用户反馈来看,Mondrian的表现相当亮眼——整体水平已经能够持平GPT图像生成模型MH2,部分场景下的表现甚至优于MH2。按照目前的时间线,该模型预计将在5月19日正式发布。如果消息属实,这将是谷歌在图像生成领域的又一次重要突破。
xAI推出编程助手Grok Build
桌面级编程工具直接对标Codex
xAI即将推出桌面级编程助手Grok Build,明确对标OpenAI的Codex等竞品。马斯克早在上个月就预告了Grok Build Beta版本即将发布,但不知何故延期至今。目前已有部分用户获得了内测权限。
OpenAI Codex是最早将大语言模型系统性应用于代码生成的商业产品之一,也是GitHub Copilot的底层引擎。随着各大模型编程能力的全面提升,AI编程助手已从单纯的代码补全演进为支持完整项目生成、调试、重构的「智能开发伙伴」。当前赛道玩家包括GitHub Copilot、Cursor、Windsurf、Devin等,竞争维度涵盖代码质量、上下文窗口长度和IDE集成深度。Grok Build选择以桌面客户端形式切入,意在提供更深度的本地开发环境集成,与纯云端API方案形成差异化竞争。
Grok Computer功能短暂曝光
更值得关注的是,有用户发现Grok网页端短暂出现了一个「Grok Computer」选项,该功能支持在本地和云端执行任务,这意味着Grok正在向通用计算代理方向发展。不过该功能很快被下架,显然还未准备好正式面世。
「Grok Computer」所指向的计算机操控代理(Computer Use Agent)是当前AI能力边界扩展的重要方向。该类技术允许AI模型像人类一样操作图形界面——截取屏幕、识别UI元素、模拟鼠标点击和键盘输入,从而完成跨应用的复杂任务。Anthropic于2024年率先推出Claude Computer Use功能,OpenAI随后发布了Operator产品。Grok Computer若能同时支持本地与云端执行,意味着xAI正在构建一个可跨越设备边界的通用任务执行层,这将是其生态系统中极具战略价值的基础能力。

从产品布局来看,xAI正在快速补齐工具链——从对话模型到编程助手再到计算机操控,试图构建一个完整的AI生态系统。
Anthropic计划停用Claude Sonnet 4.5
据了解,Anthropic打算停用Claude Sonnet 4.5模型,预计将在5月15日正式从Claude的APP中移除。不过API端暂时保持开放,给开发者留出了一定的迁移缓冲期。

这一决定并不令人意外。随着更新版本模型的推出,旧版本的维护成本与收益不成正比,逐步淘汰是行业常态。对于依赖该模型的开发者而言,需要尽快评估迁移方案。
OpenAI全面关闭微调服务API
OpenAI宣布了一项重大政策变更:由于GPT 5.5在指令遵循和格式一致性等方面已经足够强大,公司决定全面关闭微调服务API。

具体安排如下:
- 新用户:已无法使用微调服务
- 老用户:最晚可使用到明年1月份
- 已部署模型:将伴随基座模型同步停止(例如GPT 5.4停用时,基于5.4的微调模型也将同步关闭)
这一决策背后有深刻的技术演进逻辑。模型微调(Fine-tuning)是指在预训练大模型基础上,使用特定领域数据进行二次训练的技术手段,早期GPT-3时代几乎是实现垂直场景定制化的唯一可靠路径。然而随着模型基础能力的跃升,提示工程(Prompt Engineering)——即通过精心设计输入指令来引导模型行为——逐渐能够替代大量原本需要微调才能实现的效果。少样本学习(Few-shot Learning)、检索增强生成(RAG)和系统提示(System Prompt)的组合使用,使得无需修改模型权重即可实现高度定制化输出。OpenAI此举本质上是对「基础模型能力已足够强大」这一判断的商业化表达,但对医疗、法律、金融等需要严格输出格式和专业知识注入的垂直领域而言,微调仍具有不可替代的价值,这无疑增加了相关开发者的不确定性。
字节跳动AI基础设施支出上调25%
据报道,字节跳动计划将AI基础设施支出提高25%,调整后总额将达到约2000亿人民币。知情人士透露,上调支出主要有两方面原因:
- 战略层面:继续加大AI方
相关推荐
科技前沿GitHub Agent HQ发布:AI编程工具进入平台化竞争时代
GitHub Universe大会发布Agent HQ平台,统一管理编码Agent,Copilot升级支持多模型集成。同期OpenAI完成重组,Anthropic新模型测试,NVIDIA开源系列AI模型,AI编程工具格局加速整合。
科技前沿Gemini 3.5 Flash在GDPval基准上实现巨大飞跃
Google Gemini 3.5 Flash在GDPval基准测试中超越Gemini 3.1 Pro,轻量级Flash模型借助后训练技术逼近前沿水平,重新定义性能与成本的平衡点,为AI应用开发者带来重大利好。
科技前沿Google Gemini Antigravity周配额三倍提升,AI编程不再受限
Google Gemini团队再次将Antigravity周配额提升至三倍,继日配额提升后再次加码。本文解析此次配额调整对开发者的实际影响,以及在AI编程助手竞争格局中的战略意义。