AI周报：Claude Code代码审查、Gemma 4泄露与DeepSeek V4推迟

概述

本周AI领域动态密集，Anthropic推出Claude Code代码审查功能、Google Gemma 4模型意外泄露、DeepSeek V4发布再度推迟、微软Copilot Cowork重塑协作方式。本文逐一深度解析这些重磅更新及其对开发者和行业的实际影响。

Anthropic Claude Code：AI代码审查正式登场

Anthropic近期在产品迭代上保持了极高的节奏，继Claude Code和桌面应用之后，本次推出了迄今为止最大的一次更新——代码审查功能。

这项功能的核心机制是：当一个Pull Request（拉取请求）被打开时，多个AI代理会并行分析代码，核查潜在问题以排除误报，按严重程度对缺陷排序，最终以摘要和内联注释的形式给出高价值反馈。审查深度会根据改动复杂度自动调整——较大的PR会得到更深入的分析，较小的PR则进行轻量审查。

要理解这项功能的价值，需要了解Pull Request在现代软件开发中的核心地位。PR是基于Git版本控制的协作机制，当开发者完成代码修改后，会向主代码库提交PR请求团队审查并合并变更。传统的代码审查依赖人工逐行检查，审查者需要理解业务逻辑、检查安全漏洞、评估代码风格一致性和性能影响。这个过程通常耗时数小时甚至数天，且审查质量高度依赖审查者的经验和精力状态。在大型团队中，PR积压和审查疲劳是普遍存在的瓶颈问题，AI代码审查工具正是为解决这一痛点而生。

即使经验丰富的工程师也可能忽略的问题

成本与争议

目前该功能平均耗时约20分钟，单次费用约为15到25美元。这个定价引发了不少争议，许多开发者认为成本过高。市场上已有CodeGrab、GrapTile甚至Cognition的Devin等更低成本的代码审查工具可供选择。

不过，Anthropic公布的内部数据颇具说服力：部署该系统后，审查反馈采纳率从16%跃升至54%，帮助开发者发现了即使经验丰富的工程师也可能忽略的问题。该功能目前处于研究预览阶段，仅向团队用户开放，未来将逐步对更多Claude Code用户开放。

Google Gemma 4：开源大模型的新突破

一个颇具戏剧性的泄露事件揭示了Google即将推出Gemma 4模型。开发者在GitHub仓库的一个Pull Request中发现了来自Google机器人账户的直接引用，虽然该PR很快被关闭并改名以掩盖痕迹，但消息已经传开。

模型规格与架构亮点

根据泄露信息，Gemma 4将采用混合专家（MoE）架构：

总参数量：约1200亿
活跃参数量：约150亿

混合专家架构（Mixture of Experts, MoE）是一种通过条件计算实现模型扩展的前沿技术路线。与传统的密集模型（如早期的GPT系列）在每次推理时激活所有参数不同，MoE模型将参数分散在多个"专家"子网络中，通过一个门控网络（Gating Network）动态选择每次推理只激活其中少数专家。这意味着模型可以拥有巨大的总参数量来代表知识容量，但实际计算成本仅与活跃参数量成正比。Google的Switch Transformer和开源社区的Mixtral都是MoE架构的成功先例。

对于Gemma 4而言，1200亿总参数但仅150亿活跃参数的设计，意味着开发者可能只需要一到两张消费级GPU就能运行一个知识容量堪比千亿级模型的系统。作为开源模型，这将是一个改变游戏规则的突破——让更多开发者和企业能够在本地部署高性能AI模型，而无需依赖昂贵的云端算力。多位Google团队成员已暗示该模型可能在近期推出。

DeepSeek V4：发布再度推迟的背后

DeepSeek第四版模型原本预计在3月发布，但目前看来要推迟到更晚。从多个GitHub仓库中频繁出现的集成更新和PR合并来看，底层系统已基本就绪。

它拥有一百万标记的上下纹窗口

已知技术特性

从预发布泄露中可以看到DeepSeek V4的几个关键特性：

100万token上下文窗口
动态吸收注意力架构（相关实现已可在GitHub上找到）
前端代码处理和用户生成内容功能显著提升
性能超过多个现有专有模型

100万token的上下文窗口是一项具有革命性意义的技术突破。上下文窗口指大语言模型在单次推理中能够处理的最大文本长度。早期的GPT-3.5仅支持4096个token（约3000个英文单词），而100万token意味着模型可以一次性处理约75万个英文单词——相当于十几本完整的书籍或一个大型代码库的全部源代码。这对于长文档分析、跨文件代码理解和复杂对话记忆的应用场景具有变革性意义。实现超长上下文的技术挑战在于标准注意力机制的计算复杂度随序列长度呈二次方增长，因此需要稀疏注意力、线性注意力或分层压缩等创新架构来降低计算开销。

动态吸收注意力（Dynamic Absorption Attention）正是为解决这一挑战而设计的新型注意力机制变体。它通过自适应地"吸收"或压缩不重要的上下文信息，使模型能够在保持关键信息的同时大幅减少计算量。这种架构可以根据内容的语义重要性动态调整注意力的分配粒度，特别适合处理百万级token的超长上下文场景。

推迟原因分析

有分析认为，OpenAI在DeepSeek计划发布期间推出了一个先进模型，这可能迫使DeepSeek重新调整发布策略。业内人士Chris认为，DeepSeek希望这次发布不仅达到基准线，更要超出人们的期望，因此选择推迟到本月晚些时候甚至下个月。

微软Copilot Cowork：重新定义AI协作

微软通过Copilot Cowork的发布大幅提升了Copilot的能力。这个系统与Anthropic的多代理理念高度相近，运行在Microsoft 365生态系统之上。

多代理（Multi-Agent）系统是当前AI应用架构的重要趋势，其核心思想是将复杂任务分解给多个专门化的AI代理协同完成，而非依赖单一模型处理所有事务。每个代理可以拥有不同的工具访问权限、专业知识和行动能力。微软将这一理念嵌入企业级生产力套件，意味着AI不再只是回答问题的助手，而是能够跨越多个应用自主执行工作流的"数字同事"。这种架构的关键挑战在于权限管理、操作可审计性和错误恢复机制的设计。

Copilot Cowork的核心价值在于：你不再需要手动在应用间切换，而是可以将任务直接交给Cowork处理。它会根据需求制定执行方案，并自动在你的应用和文件中完成操作——整理日程、调整会议、管理文档、协调工作流程，甚至生成演示文稿和跟进笔记。

所有操作都基于组织的业务数据，运行在Microsoft 365既有的安全和管理框架内。目前Cowork正在对少量客户进行测试，更广泛的预览预计在未来几周内推出。

其他值得关注的动态

OpenAI收购PromptFool强化AI安全

据OpenAI表示

OpenAI宣布收购PromptFool——一个广受欢迎的开源红队演练工具。据OpenAI表示，这项技术将加强其在安全测试与评估方面的能力，尤其针对日益强大的基于代理的系统。好消息是PromptFool将在现有许可下继续保持开源。

红队演练（Red Teaming）源自军事术语，指由专门团队模拟对手攻击来测试防御系统的薄弱环节。在AI安全领域，红队演练通过精心设计的对抗性提示（adversarial prompts）来测试AI模型是否会产生有害输出、泄露训练数据或绕过安全护栏。PromptFool允许研究者系统性地探测模型的脆弱性，包括提示注入攻击、越狱技术和间接提示攻击等。随着AI代理系统获得越来越多的自主行动能力——如访问网络、执行代码、操作文件——安全评估的重要性呈指数级增长，一个被攻破的AI代理可能造成的损害远超一个简单的聊天机器人。

Grok Imagine 1.5图像生成升级

这可能很快就会发布

马斯克在X上暗示正在开发Grok Imagine 1.5版本。有用户指出Grok的图像模型是为数不多能在各种尺寸和分辨率下保持风格一致性的模型之一，新版本可能带来更大幅度的改进。

OpenClaw持续迭代

这款开源本地AI代理连续推出两个版本更新，新增了CP溯源功能、备份系统、十多项安全修复，以及对GBC 5.4和Gemini 3.1的支持。同时还优化了Docker多阶段构建和可插拔上下文引擎。

Gemini极简模式降低使用门槛

Google为Gemini推出了极简模式，通过按两次Tab键即可启用，将界面简化为仅剩一个输入框。这一改动面向更广泛的非技术用户群体，有效降低了AI工具的使用门槛。

总结

本周的AI动态呈现出几个明显趋势：代码开发领域的AI工具竞争白热化（Claude Code vs Copilot vs Devin）、开源大模型持续突破（Gemma 4、DeepSeek V4）、以及AI安全评估受到前所未有的重视。各大厂商正在从单纯的模型能力竞争，转向生态系统和工作流程的全面整合。

核心要点

Anthropic推出Claude Code代码审查功能，多AI代理并行分析PR，内部采纳率从16%跃升至54%，但单次费用15-25美元引发争议
Google Gemma 4模型意外泄露，总参数1200亿/活跃参数150亿的MoE架构，有望在低成本硬件上运行
DeepSeek V4推迟发布，已知支持100万token上下文窗口和动态吸收注意力架构，疑因竞争压力重新调整策略
微软Copilot Cowork打造自主工作层，运行在Microsoft 365生态之上实现跨应用自动化协作
OpenAI收购红队工具PromptFool加强AI安全评估，该工具将继续保持开源