英国AISI报告：GPT-5.5网络安全能力比肩Claude Mythos

概述

英国AI安全研究所（AI Safety Institute, AISI）近日发布了对OpenAI最新模型GPT-5.5在网络安全领域的能力评估报告。此前，该机构已对Anthropic的Claude Mythos完成了类似测试。评估结果显示，GPT-5.5在发现安全漏洞方面的表现与Claude Mythos基本持平，但有一个关键区别——GPT-5.5已经面向公众开放使用。

AI模型的网络安全能力为何值得关注

大语言模型的能力正在快速攀升，其在网络安全领域的潜力和风险也随之放大。AI模型既能帮助安全研究人员更快地发现和修复漏洞，也可能被恶意利用来寻找系统弱点、降低攻击门槛。

英国AI安全研究所是全球首个国家级AI安全评估机构，长期以来对前沿AI模型的网络安全能力进行系统性测试。这些评估帮助公众了解AI的真实能力边界，也为政策制定者提供了关键的决策参考。

GPT-5.5与Claude Mythos评估结果对比

漏洞发现能力处于同一水平

AISI的测试结果表明，GPT-5.5在安全漏洞发现方面的能力与Anthropic的Claude Mythos处于同一水平。OpenAI和Anthropic两大实验室的前沿模型，在网络安全这一关键领域已经达到了相似的技术高度。

最大差异在于公开可用性

两者之间最值得注意的区别在于可用性。GPT-5.5已经作为通用产品向公众开放，而Claude Mythos在接受评估时仍处于预览阶段。这一差异的现实意义不容忽视：一个已经广泛可用的模型，意味着其网络安全能力正在实际环境中产生影响——无论是正面的安全加固，还是潜在的滥用风险。

评估结果的深层影响

网络安全行业面临双刃剑效应

具备漏洞发现能力的AI模型，对整个网络安全行业来说是一把双刃剑：

防御端提效：安全团队可以借助这些模型加速漏洞扫描和代码审计，大幅缩短响应时间
攻击门槛降低：同样的能力也可能让不具备深厚安全知识的人发现并利用漏洞，扩大潜在威胁面

AI安全评估走向标准化

AISI对多个前沿模型采用统一框架进行评估的做法，正在推动AI安全评估的标准化进程。通过相同的测试基准比较不同模型的能力，研究人员和公众可以获得更客观的认知，这对于建立行业基准和监管框架都至关重要。

前沿模型能力快速趋同

GPT-5.5与Claude Mythos在网络安全能力上的接近，折射出一个更广泛的行业趋势：前沿AI模型之间的能力差距正在收窄。各大AI实验室在关键能力维度上快速追赶彼此，这不仅加剧了商业竞争，也意味着安全风险评估需要覆盖整个行业，而非只盯住某一个模型。

未来展望

随着AI模型网络安全能力的持续提升，如何在促进安全研究应用和防范恶意利用之间找到平衡点，将是行业和监管机构面临的核心挑战。英国AISI的持续评估工作为这一领域带来了难得的透明度，也为其他国家建立类似评估机制提供了可借鉴的范本。

可以预见，未来会有更多国家和机构加入AI网络安全能力的评估行列，而AI开发者也需要在模型发布前更加重视安全能力评估和风险缓解措施的落地。