AI周报｜OpenAI Codex升级、小米开源自动驾驶模型、英伟达26亿参数世界模型开源

本周（5.11-5.17）AI领域动态密集，从开源模型到企业级部署，从代码安全到融资大战，各大厂商持续加码。以下是本周最值得关注的重点事件梳理与解读。

开源模型：NVIDIA与小米各出重拳

NVIDIA开源26亿参数世界模型3A AWM

NVIDIA研究团队本周开源了3A AWM（Autonomous World Model），这是一个拥有26亿参数的世界模型，能够生成最长1分钟的720P视频。该模型主要面向长视频生成研发场景，标志着NVIDIA在视频生成领域的重要布局。

世界模型（World Model）是一类能够对物理世界动态规律进行内部建模的AI系统，其理论根源可追溯至Yann LeCun等人提出的"自主机器智能"框架。与传统生成模型不同，世界模型不仅要生成视觉上逼真的内容，还需要理解物体运动、因果关系和时序一致性——这正是其核心价值所在：让AI理解物理世界的运行规律，而不仅仅是生成"看起来像"的内容。26亿参数的规模虽然不算巨大，但能生成720P长达1分钟的视频，意味着模型需要在时间维度上维持场景的物理连贯性，这在计算上极具挑战性。开源策略意味着研究社区可以在此基础上快速迭代，这对推动视频生成技术的民主化挺重要的。

小米开源Xiaomi One VL自动驾驶大模型

小米发布并开源了Xiaomi One VL，这是一个面向自动驾驶的视觉语言大模型，统一了VLA（Vision-Language-Action）、世界模型和潜空间推理三条技术路线。

VLA模型是将视觉感知、语言理解与动作决策统一在同一神经网络框架内的多模态架构，代表了自动驾驶从模块化流水线向端到端学习的范式转变。潜空间推理（Latent Space Reasoning）则是指模型在高维压缩表示空间中完成推理，而非在原始像素或符号层面操作，这样可以大幅降低计算冗余并保留语义信息。这一架构设计颇具前瞻性——传统自动驾驶方案往往将感知、决策、规划分开处理，而小米选择在潜空间中统一推理，与特斯拉FSD的端到端神经网络策略异曲同工，但在架构设计上更为激进，有望减少信息在模块间传递时的损耗。对于小米汽车业务而言，开源策略既能吸引社区贡献，也能建立技术标准话语权。

Entling AGI开源Ring 2.6 ET

Entling AGI开源了Ring 2.6 ET并上线Open Router，该模型面向智能体复杂任务和工作流场景。随着AI Agent成为行业共识方向，专门针对智能体场景优化的模型正在成为新的竞争赛道。

开发者工具：Codex与通义灵码持续进化

OpenAI Codex支持自定义快捷键

OpenAI Codex现已支持自定义键盘快捷键，用户可以按照个人工作习惯调整配置，减少日常开发操作中的摩擦。这个看似微小的更新，实际上反映了AI编程工具从"能用"到"好用"的进化方向——开发者体验的细节打磨，往往决定了工具的实际采用率。

阿里云发布通义灵码Q-Coder 1.0

阿里云发布Q-Coder 1.0，从AI IDE升级为智能体自主开发工作台。新版支持任务管理、多任务并行，官方称代码保留率提升了11%。从"辅助编码"到"自主开发工作台"的定位转变，意味着AI编程工具正在从副驾驶向主驾驶演进。

平台与产品：巨头们的AI渗透战

XAI发布Grok Imagine图像生成功能

XAI发布了Grok Imagine图像生成功能，已在X平台向所有用户开放。用户可以输入文字生成图像，支持多种宽高比。马斯克将图像生成能力直接嵌入社交平台，这种"AI能力即平台功能"的策略，让数亿用户零门槛接触到生成式AI。

XAI发布Grok Imagine图像生成功能

Google将Gemini推向更多场景

Google正在把Gemini推向Chrome、Android Auto等更多场景，新能力涵盖视频生成、网页操作和车载智能。不过说个细节，部分功能的硬件门槛较高，这可能在短期内限制其普及速度。Google的策略很明确：让Gemini成为贯穿所有Google产品的AI底座。

英伟达发布Vera Rubin NVL72平台

英伟达发布Vera Rubin NVL72平台，专门面向代理式推理场景。智能体任务的特点是会叠加大量连续请求，该平台重点缓解连续推理过程中的累积延迟问题。这再次印证了一个趋势：AI Agent的规模化部署，对基础设施提出了全新的挑战。

安全与合规：不容忽视的暗流

微软发布多模型智能体扫描框架MDASH

微软发布了多模型智能体扫描框架MDASH，面向代码安全审计场景。在CyberGem基准测试中，该框架识别出16个新漏洞，表现超过GPT-4.5。

MDASH所代表的多模型智能体安全审计范式，是对传统单模型代码扫描工具的重要升级。其核心思路是让不同专长的模型分别负责漏洞识别的不同维度——例如一个模型专注于内存安全，另一个专注于逻辑漏洞——再通过协调层汇总结论。这种"集成智慧"的方式类似于安全领域的红队/蓝队对抗机制，能够覆盖单一模型的认知盲区。这说明在安全领域，专用的多模型协作方案可能比单一大模型更有效，也印证了垂直场景下专用架构优于通用大模型的普遍规律。

微软发布多模型智能体扫描框架MDASH

TenStack相关NPM包遭供应链投毒

TenStack相关NPM包遭遇供应链投毒攻击，影响42个项目。OpenAI称未发现用户数据泄露，但要求相关macOS用户完成更新。

软件供应链攻击（Supply Chain Attack）是指攻击者通过污染上游依赖包、构建工具或代码仓库，间接入侵大量下游用户的攻击方式。NPM生态系统因其极度碎片化的依赖树结构而尤为脆弱——一个中等规模的Node.js项目往往依赖数百乃至数千个第三方包。2021年的ua-parser-js事件和2022年的node-ipc事件均造成了大规模影响。在AI工具链高度依赖开源生态的今天，攻击者只需污染一个被广泛引用的底层包，即可在AI开发环境中植入恶意代码，危害范围远超传统软件场景。供应链安全问题在AI时代愈发严峻，当越来越多的AI工具依赖开源生态时，一个被污染的依赖包可能造成连锁反应。

OpenAI安全公告

商业动态：融资与战略布局

OpenAI推出部署公司与教育计划

OpenAI本周动作频频：推出OpenAI Deployment Company服务企业AI部署，由OpenAI控股运营，联合19家机构提升落地交付效率；同时面向马尔他公民推出一年ChatGPT Plus权益——完成AI课程并通过认证后可免费领取。前者瞄准企业市场，后者则是AI教育普及的创新尝试。

OpenAI面向马尔他公民推出ChatGPT Plus权益

Anthropic拟以9000亿美元估值融资300亿

Anthropic正在洽谈新一轮融资，拟按9000亿美元估值筹集300亿美元。亚马逊计划追加最多250亿美元投资，并强化AWS云合作。

这一估值背后，是资本市场对"AI基础设施稀缺性"的定价逻辑。训练顶级大语言模型所需的算力、数据和人才高度集中，形成了极高的进入壁垒，使头部公司具备类似"平台垄断

AI周报｜OpenAI Codex升级、小米开源自动驾驶模型、英伟达26亿参数世界模型开源

开源模型：NVIDIA与小米各出重拳

NVIDIA开源26亿参数世界模型3A AWM

小米开源Xiaomi One VL自动驾驶大模型

Entling AGI开源Ring 2.6 ET

开发者工具：Codex与通义灵码持续进化

OpenAI Codex支持自定义快捷键

阿里云发布通义灵码Q-Coder 1.0

平台与产品：巨头们的AI渗透战

XAI发布Grok Imagine图像生成功能

Google将Gemini推向更多场景

英伟达发布Vera Rubin NVL72平台

安全与合规：不容忽视的暗流

微软发布多模型智能体扫描框架MDASH

TenStack相关NPM包遭供应链投毒

商业动态：融资与战略布局

OpenAI推出部署公司与教育计划

Anthropic拟以9000亿美元估值融资300亿

相关推荐

GitHub Agent HQ发布：AI编程工具进入平台化竞争时代

Gemini 3.5 Flash在GDPval基准上实现巨大飞跃

Google Gemini Antigravity周配额三倍提升，AI编程不再受限