AI日报：IBM开源Granite 4.0混合架构，Google Jules命令行工具发布

2025年10月3日，AI领域多项重磅更新集中释放。从IBM全新混合架构开源模型到Google编码工具链的完善，从蚂蚁集团的视觉语言模型突破到OpenAI估值飙升至5000亿美元，本文梳理当日最值得关注的技术动态。

IBM发布Granite 4.0：混合架构大幅降低推理成本

IBM正式发布了Granite 4.0系列开源模型，这是该系列的一次重大架构升级。新版本采用全新的混合架构设计，核心目标是在保持模型性能的同时，大幅降低内存占用和推理成本——这正是企业级部署中最关键的痛点。

所谓混合架构（Hybrid Architecture），在大语言模型领域通常指将Transformer的标准注意力机制与其他序列建模方法（如状态空间模型SSM、线性注意力等）结合的设计范式。纯Transformer架构的推理成本随序列长度呈二次方增长，在长上下文和高并发场景下内存压力极大；而以Mamba、RWKV为代表的线性复杂度模型虽然推理高效，但在复杂推理任务上仍有差距。混合架构试图取两者之长：在需要全局关注的层使用标准注意力，在其余层使用线性或循环结构，从而在性能与效率之间取得平衡。IBM此前的Granite系列已在企业合规和代码生成领域建立口碑，此次架构升级延续了其面向企业实际部署需求的产品定位。

Granite 4.0系列包含多种参数尺寸，其中企业级主力模型在多个基准测试中表现出色。有意思的是，该模型已支持中文，并已在Watson、Dunk AI、Hugging Face等多个平台上线，开发者可以直接获取使用。

对于企业用户而言，混合架构带来的成本优势意味着在相同硬件条件下可以服务更多并发请求，这在大规模部署场景中具有显著的经济价值。

蚂蚁集团开源Ming UniVision：统一视觉理解与生成

蚂蚁集团Inclusion AI团队开源了视觉语言模型Ming UniVision，这是一项颇具创新性的工作。该模型首次通过自回归方式，在单一连续潜空间内统一了图像的理解、生成与编辑三大能力。

Ming UniVision模型技术架构示意

要理解这一突破的意义，需要了解视觉语言模型领域长期存在的"理解与生成分治"困境：CLIP、LLaVA等模型擅长图像理解与问答，而Stable Diffusion、DALL-E等扩散模型专注于图像生成，两类任务通常需要独立的模型和训练流程。近年来，Meta的Chameleon和字节跳动的SEED-X等工作开始探索统一框架，但多采用离散token化方案。Ming UniVision采用的"连续潜空间自回归"路线，将图像编码为连续向量序列而非离散token，再由自回归模型统一处理，这避免了离散化带来的信息损失，也使得编辑任务（需要对已有图像进行局部修改）能够自然融入同一框架。

传统方案通常需要为不同的视觉任务设计独立模块，而Ming UniVision的统一架构不仅简化了模型设计，还将训练收敛速度提升了3.5倍——这一加速效果的背后，正是统一表示消除了多任务间梯度冲突的结果。模型代码与权重已在Hugging Face等平台开放，研究者和开发者可以自由使用。

这一进展表明，国内AI团队在多模态统一建模方向上正在取得实质性突破。

Google多线并进：Jules Tools与Gemini 2.5 Flash更新

Jules Tools：AI编码助手走向命令行

Google为其AI编码助手Jules推出了官方命令行工具Jules Tools。开发者现在可以直接在终端中完成以下操作：

创建编码任务
拉取代码补丁
将Jules嵌入CI/CD等自动化流程

这里的CI/CD（持续集成/持续交付）是现代软件工程的核心实践，指代码提交后自动触发构建、测试、部署的流水线，GitHub Actions、Jenkins、GitLab CI是主流实现工具。将AI编码助手嵌入CI/CD流程，意味着AI可以在代码审查、自动修复、测试生成等环节发挥作用，而不仅仅是在开发者本地IDE中提供补全建议。Jules Tools提供命令行接口（CLI）是实现这一融合的关键一步——CLI工具可以被任何脚本或自动化系统调用，这是浏览器界面无法做到的。类似的思路已在GitHub Copilot CLI、Cursor等产品中有所体现，但Google将Jules直接定位为可编程的流水线组件，显示出其对企业级DevOps场景的明确布局。

这意味着开发者不再需要依赖浏览器界面来使用Jules，命令行的引入让AI编码助手真正融入了开发者的日常工作流。对于习惯终端操作的工程师来说，这是一个实用性极强的更新。

Gemini 2.5 Flash Image正式发布

Google同时宣布Gemini 2.5 Flash Image结束预览阶段，正式开放使用。新版本带来了几项关键改进：

一次性增加了10种可指定的输出图像比例
支持仅返回图像的调用模式
定价维持不变

Gemini 2.5 Flash Image新增图像比例选项

开发者可立即在Google AI Studio中免费试用。多种输出比例的支持对于需要适配不同终端和场景的应用开发者来说非常实用。

Google Finance移动版上线AI洞察功能

Google Finance面向Labs用户推出了移动新版，用户可以在移动端实时追踪市场动态，并获取AI驱动的市场洞察。

Google Finance移动版AI洞察界面

这是Google将AI能力渗透到垂直应用场景的又一案例，金融信息的AI化解读有望帮助普通投资者更快理解市场变化。

OpenAI动态：估值5000亿美元与日本政府合作

OpenAI近期动作频频。在商业层面，公司完成了66亿美元的二级市场股份转让，估值攀升至5000亿美元，正式成为全球估值最高的初创公司。

值得注意的是，二级市场股份转让（Secondary Market Transaction）是指公司现有股东（员工、早期投资人）将持有的未上市股权出售给新投资方，公司本身不直接获得融资，但此类交易会形成新的定价参考，从而确立公司的市场估值。这一数字超越SpaceX，向市场传递了一个明确信号：投资者愿意以接近大型上市科技公司的倍数为AI基础设施公司定价，AI赛道的资本热度仍处于历史高位。

OpenAI与日本数字厅达成战略合作

在政府合作方面，OpenAI与日本数字厅达成战略协作，将向日本政府雇员提供AI工具。这延续了OpenAI"政府即客户"的战略布局——此前已有与美国、英国等国政府的类似合作。政府合同通常意味着稳定的长期收入和更高的数据安全合规要求，这标志着AI工具在政府行政领域的应用正在加速落地。

此外，OpenAI在官网发文控诉马斯克持续以诉讼等手段阻挠其发展，双方的公开对抗仍在持续。

其他值得关注的动态

Perplexity Comet浏览器全球开放：AI搜索公司Perplexity宣布旗下AI浏览器Comet面向全球用户免费开放下载，无需邀请码。AI原生浏览器是2024年下半年兴起的新赛道，其核心理念是将大语言模型深度集成到浏览器内核，而非以插件或侧边栏的形式附加。Perplexity的Comet将其擅长的AI搜索能力延伸至浏览全程——用户在任意网页上均可获得AI摘要、溯源引用和对话式问答。这一赛道的竞争本质上是对"用户信息消费入口"的争夺：传统搜索引擎通过搜索框控制流量，AI浏览器则试图在更早的环节就介入用户的信息获取过程。Comet免除邀请码、全球免费开放，是典型的以规模换数据、以数据优化模型的增长策略。AI原生浏览器赛道的竞争正在升温。

Notebook LM推出个性化功能：Google的Notebook LM在聊天对话中新增了个性化设置，用户可以自定义对话风格并调整回复长度，目前提供默认、学习指南和自定义三种模式。这一更新让AI笔记工具更加贴合个人使用习惯。

OpenRouter免费推理即将结束：OpenRouter宣布Grox Fast模型的免费推理服务将于太平洋时间10月3日上午9:30结束，有需要的开发者需抓紧时间。

小结

从今日的动态可以看出几个明显趋势：开源模型在架构创新上持续发力（IBM Granite 4.0、Ming UniVision），AI工具正在深度融入开发者工作流（Jules Tools），AI应用的商业化和政府化落地同步加速（OpenAI日本合作、Google Finance AI化）。对于开发者和从业者而言，关注这些变化有助于把握技术演进的方向。

核心要点

IBM发布Granite 4.0系列开源模型，采用混合架构大幅降低内存占用和推理成本，已支持中文
蚂蚁集团开源Ming UniVision视觉语言模型，首次在单一连续潜空间统一图像理解、生成与编辑，训练收敛速度提升3.5倍
Google发布Jules Tools命令行工具，让AI编码助手融入终端工作流；Gemini 2.5 Flash Image正式发布并新增10种输出比例
OpenAI完成66亿美元二级市场股份转让，估值达5000亿美元，同时与日本数字厅达成AI工具合作
Perplexity AI浏览器Comet全球免费开放，Notebook LM新增个性化对话功能