Gemini 3.2 Pro泄露测试令人失望,GPT-5.6已在内部测试

AI模型迭代加速:Gemini 3.2 Pro表现平平,GPT-5.6进入内测,Claude网安能力惊人
本周AI领域多条重磅消息:Google Gemini 3.2 Pro泄露测试表现平平,SVG略有提升但UI薄弱,且与Flash版难以区分;OpenAI GPT-5.6已进入内部测试,迭代速度惊人;Claude新预览版在网络安全测试中6-10次尝试即解决人类需20小时的问题。行业正从追求突破性飞跃转向持续渐进式优化。
核心动态概览
本周AI领域迎来多条重磅消息:Google的Gemini 3.2 Pro首批泄露测试结果已经出现,OpenAI的GPT-5.6已进入内部测试阶段,Claude新预览版在网络安全领域表现惊人。这些动态共同指向一个趋势——AI模型的迭代周期正在急剧缩短,竞争格局日趋白热化。

Gemini 3.2 Pro泄露测试:表现平平令人担忧
SVG生成有进步但远未达到质的飞跃
首批Gemini 3.2 Pro的泄露测试结果已经曝光,从目前展示的内容来看,表现并不令人惊艳。在最常见的SVG测试中,新模型编写PS5手柄、猎鹰、自行车等图形的代码能力比之前的版本有所提升——猎鹰看起来更协调了,自行车也更完整了,甚至支持了自定义SVG功能。
SVG(Scalable Vector Graphics,可缩放矢量图形)是一种基于XML的二维图形描述语言,与位图不同,它通过数学公式描述图形的形状、路径和颜色,因此可以无限缩放而不失真。AI模型生成SVG代码的能力被视为衡量其空间推理和代码生成能力的重要指标,因为模型需要理解物体的几何结构、空间关系和视觉比例,然后将其转化为精确的坐标和路径指令。这比生成普通文本代码更具挑战性,因为任何微小的坐标偏差都会导致视觉上明显的错误。
但整体仍存在明显瑕疵:逻辑不够连贯,图形对齐存在问题,部分生成结果中手臂断开、方向错误等问题依然存在。考虑到Gemini系列已经沉寂了相当长时间,用户期待的是质的飞跃,而非小幅改进。

UI生成能力明显薄弱
更令人担忧的是UI生成表现。从泄露的测试结果来看,UI功能要么被削弱了,要么就是这个版本没有在此方向下功夫。Google可能在针对SVG代码进行微调,但UI方面的提升并不明显。如果这就是最终呈现的UI水平,对于期待全面提升的用户来说确实令人失望。
Flash版本与Pro版本难以区分
最让人费解的是,代号为"FENTA"的Gemini 3.2 Flash模型(另有Sprite和Cola两个版本)表现竟然与3.2 Pro不相上下。将两者放在一起对比,几乎分不清哪个是Pro版、哪个是Flash版,有时Flash版甚至表现更好。

在大型语言模型的产品线中,Pro版本通常指参数量更大、推理能力更强但响应速度较慢的模型,而Flash版本则是经过知识蒸馏(Knowledge Distillation)或剪枝优化的轻量级模型,牺牲部分性能换取更快的推理速度和更低的计算成本。蒸馏技术让小模型学习大模型的输出分布,理论上Flash模型应该是Pro模型的"压缩版",性能存在明显差距。当两者表现趋同时,可能意味着Pro版本的训练尚未充分收敛,或者Flash版本的蒸馏效果异常出色。
按照常理,Pro模型理应比Flash模型更强。如果两者差距如此之小,那Pro版本的定位就变得尴尬了。不过需要强调的是,这些都是早期泄露信息,最终发布版才能决定模型的真实表现。预计Google将在5月19日I/O大会前后正式发布这些模型。
GPT-5.6已在内部测试:迭代速度令人咋舌
研发周期显著缩短
据爆料,GPT-5.6的首批检查点已开启内部测试,预计最快下个月就会发布。目前有两个内部代号——"Amber Alpha"和"Beacon Alpha",很可能是GPT-5.6不同版本的代号,OpenAI正通过测试确定哪个版本表现更优。

所谓检查点(Checkpoint),是模型训练过程中定期保存的中间状态快照,包含模型在该时刻的所有权重参数。大型AI实验室通常会在训练过程中保存多个检查点,然后对这些检查点进行评估测试,选择综合表现最优的版本进行后续的对齐训练(RLHF)和安全微调。OpenAI同时测试两个代号版本的做法,可能意味着他们在探索不同的训练配方——如不同的数据配比、学习率策略或架构变体——通过A/B测试确定最终发布方案。
最疯狂的是,GPT-5.5发布才不过几周,如今的迭代周期已经快到离谱。GPT-5.5对OpenAI而言大获成功,表现远超Claude Opus 4.7,而现在他们似乎想维持这种竞争节奏,打算用GPT-5.6再次压过Google即将发布的新模型。
加速迭代背后的两大驱动力
迭代加速有两个核心原因:
第一,AI正在参与自身的开发。 模型现在正由AI自身来编写代码,这无疑大幅加快了研发进度。具体而言,AI参与自身开发(有时被称为"递归自我改进"的早期形态)目前主要体现在几个层面:AI辅助编写训练基础设施代码、自动化超参数搜索、生成和筛选训练数据、以及辅助进行模型评估。OpenAI已公开表示其内部大量使用自家模型来加速软件工程工作。这与科幻中的"AI自我进化"不同,当前阶段更像是AI作为高效的研发助手,将人类工程师从重复性工作中解放出来,从而压缩整体研发周期。但这种正反馈循环确实在加速模型迭代的节奏。
第二,市场竞争异常激烈。 行业迭代速度极快,OpenAI和其他实验室不得不加快发布频率。未来可能很难再看到过去那种突破性的性能跃升,取而代之的是更频繁的小幅更新、个性化功能和架构优化。
这意味着行业正从"追求爆发式跳跃增长"转向"持续渐进式优化"的新阶段。
Claude新预览版:网络安全领域的重大突破
6-10次尝试解决人类需要20小时的问题
Claude的新预览版在网络安全测试中表现惊人。面对多达32步的企业级网络攻击,人类专家通常需要20个小时才能解决,而新的Claude预览模型能在短短6到10次尝试内就搞定。

这里提到的"32步企业级网络攻击"测试,很可能基于CTF(Capture The Flag)竞赛或红队演练的标准化场景。这类测试通常模拟真实的多阶段攻击链(Kill Chain),包括初始侦察、漏洞利用、权限提升、横向移动、数据窃取等环节。每一步都需要分析系统配置、识别漏洞、编写利用代码并规避检测机制。人类专家需要20小时完成,是因为每一步都涉及大量的信息收集和试错过程。AI模型能在6-10次尝试内完成,说明其在模式识别和攻击路径规划方面已具备超越人类的效率。
从测试数据来看,Claude Opus 4.6最初处于领先地位,随后GPT 5.5发布后与之持平,接着GPT 5.5 Cyber(专门针对网络安全微调的版本)一度领先,最终Claude新预览版再次重回榜首。
双刃剑效应不容忽视
这种能力是一把双刃剑——如果一个模型既能解决安全问题,又同样擅长发现和利用漏洞,情况就变得复杂了。正因如此,网络安全相关的模型采取了分阶段发布策略,让企业和政府有时间适应这一新现实。
Codex即将登陆移动端
值得一提的是,OpenAI的Codex团队正致力于推出移动端应用,可能是独立应用或集成到现有平台中。用户届时将能使用远程控制功能,这对移动开发场景来说是一个重要补充。
Codex最初是OpenAI于2021年推出的代码生成模型,后来演变为一个完整的AI编程代理平台。将其引入移动端意味着开发者可以在任何场景下通过自然语言指令远程操控代码仓库——审查Pull Request、修复紧急Bug、甚至启动完整的开发任务。这对DevOps和on-call场景尤为重要,工程师无需打开笔记本电脑就能处理生产环境问题。远程控制功能可能基于类似云端沙箱的架构,让AI代理在安全隔离的环境中执行代码操作,同时通过移动端提供实时反馈和审批机制。
总结与展望
当前AI行业正处于一个微妙的转折点:模型已经足够强大,未来的竞争将更多体现在迭代速度、专业化微调和用户体验优化上。Google需要在5月19日I/O大会上证明自己,而OpenAI则试图通过极速迭代保持领先优势。对于用户而言,更频繁的模型更新意味着持续改善的使用体验,但也意味着我们需要调整预期——革命性突破可能越来越少,渐进式改进将成为常态。
核心要点
- Gemini 3.2 Pro泄露测试结果表现平平,SVG生成有所提升但UI能力薄弱,且与Flash版本难以区分
- GPT-5.6已进入内部测试阶段,代号Amber Alpha和Beacon Alpha,预计最快下月发布
- AI模型迭代周期急剧缩短,核心驱动力是AI参与自身开发和激烈的市场竞争
- Claude新预览版在网络安全测试中表现惊人,6-10次尝试即可解决人类专家需20小时的问题
- 行业正从追求突破性飞跃转向持续渐进式优化的新阶段
相关推荐
科技前沿GitHub Agent HQ发布:AI编程工具进入平台化竞争时代
GitHub Universe大会发布Agent HQ平台,统一管理编码Agent,Copilot升级支持多模型集成。同期OpenAI完成重组,Anthropic新模型测试,NVIDIA开源系列AI模型,AI编程工具格局加速整合。
科技前沿Gemini 3.5 Flash在GDPval基准上实现巨大飞跃
Google Gemini 3.5 Flash在GDPval基准测试中超越Gemini 3.1 Pro,轻量级Flash模型借助后训练技术逼近前沿水平,重新定义性能与成本的平衡点,为AI应用开发者带来重大利好。
科技前沿Google Gemini Antigravity周配额三倍提升,AI编程不再受限
Google Gemini团队再次将Antigravity周配额提升至三倍,继日配额提升后再次加码。本文解析此次配额调整对开发者的实际影响,以及在AI编程助手竞争格局中的战略意义。