英国AI安全研究所评估GPT-5.5：网络安全能力比肩Claude Mythos

概述

英国AI安全研究所（AI Security Institute, AISI）近日发布了对OpenAI最新模型GPT-5.5网络安全能力的评估报告。此前，该机构已对Anthropic的Claude Mythos进行了类似评估。结果显示，GPT-5.5在发现安全漏洞方面的能力与Claude Mythos基本相当，但有一个关键区别——GPT-5.5目前已经面向公众开放使用。

评估背景：AI模型的网络安全能力为何值得关注

随着大语言模型能力的快速提升，其在网络安全领域的潜在应用和风险日益受到关注。AI模型能否自主发现软件中的安全漏洞，这既是一种强大的防御工具，也可能成为攻击者的利器。

英国AI安全研究所作为全球首批专注于前沿AI安全评估的政府机构之一，一直在系统性地对主流AI模型进行网络安全能力测试。AISI成立于2023年11月，是在英国主办的首届全球AI安全峰会（Bletchley Park Summit）之后正式设立的，最初名为"前沿AI任务组"（Frontier AI Taskforce）。该机构的核心使命是对前沿AI系统进行独立的安全评估，涵盖生物安全、网络安全、自主性和社会影响等多个风险维度。AISI与OpenAI、Anthropic、Google DeepMind等主要AI实验室建立了模型预部署评估合作关系，即在模型正式发布前获得访问权限进行安全测试。其评估方法论在国际上具有广泛参考意义，美国也在其影响下于国家标准与技术研究院（NIST）下设立了类似的AI安全研究所。这些评估旨在帮助政策制定者和公众了解当前AI系统的真实能力边界，为AI治理提供科学依据。

GPT-5.5与Claude Mythos网络安全能力对比

漏洞发现能力处于同一水平

AISI的评估聚焦于AI模型发现安全漏洞的能力。从技术角度来看，AI模型的漏洞发现能力主要依赖于其对代码语义的深度理解和模式识别能力。传统的漏洞检测方法包括静态分析（SAST）、动态分析（DAST）和模糊测试（Fuzzing），这些方法各有局限——静态分析误报率高，动态分析覆盖面有限，模糊测试则依赖于输入生成策略的质量。大语言模型的介入带来了范式转变：它们能够理解代码的上下文逻辑，识别诸如缓冲区溢出、SQL注入、竞态条件、权限提升等复杂漏洞模式，甚至能够推理出多步骤的攻击链。在AISI的评估框架中，通常会使用包含已知漏洞的真实代码库（如CVE数据库中的历史漏洞）以及专门设计的挑战题目来测试模型能力，评估指标包括发现率、误报率以及能否生成可用的概念验证（PoC）代码。

根据评估结果，GPT-5.5在这一维度上的表现与Anthropic的Claude Mythos处于同一水平。这意味着两大AI实验室的顶级模型在网络安全任务上已经达到了相似的能力层级。

关键差异：公开可用性

两者之间最显著的区别在于可用性。Claude Mythos是Anthropic推出的前沿大语言模型，属于Claude系列的最新迭代。Anthropic由前OpenAI研究副总裁Dario Amodei和Daniela Amodei于2021年创立，该公司以"AI安全优先"为核心理念，在模型训练中广泛采用宪法AI（Constitutional AI）和基于人类反馈的强化学习（RLHF）等对齐技术。Claude Mythos在发布策略上采取了更为审慎的分阶段方式，先通过有限预览收集安全反馈，再逐步扩大可用范围。这种策略与Anthropic提出的"负责任扩展政策"（Responsible Scaling Policy, RSP）一脉相承——该政策规定，当模型在特定危险能力评估中超过预设阈值时，必须实施相应的安全措施后才能继续部署。

而GPT-5.5已经作为通用产品向公众开放。这一差异带来了直接的现实影响：

防御端：安全研究人员和企业可以立即利用GPT-5.5来辅助漏洞检测和安全审计
风险端：具备漏洞发现能力的模型已经广泛可用，这对安全防御体系提出了更高要求

行业影响与深层思考

AI安全评估走向标准化

AISI连续对多个前沿模型进行网络安全能力评估，标志着AI安全评估正在走向标准化和常态化。这种由政府机构主导的第三方评估机制，为AI行业提供了一个相对客观的能力参照系。

顶级模型能力趋同

GPT-5.5与Claude Mythos在网络安全能力上的趋同，反映了一个更广泛的行业趋势：顶级AI模型之间的能力差距正在缩小。这一现象在业界被称为"能力收敛"（capability convergence），其背后有多重技术驱动因素。首先，主流模型普遍采用了相似的Transformer架构和预训练范式，训练数据来源也存在高度重叠（如Common Crawl、学术论文、开源代码库等）；其次，Scaling Laws（缩放定律）的研究表明，当模型参数量和训练数据量达到一定规模后，不同模型在基准测试上的表现会趋于接近；此外，各实验室之间的人才流动和公开论文也加速了技术扩散。然而，能力趋同并不意味着模型完全同质化——在推理风格、上下文窗口利用效率、工具调用能力以及特定领域的微调效果上，不同模型仍然存在显著差异。

OpenAI、Anthropic等头部公司在关键能力维度上的竞争日趋激烈，模型之间的差异化更多体现在产品策略、可用性和生态系统层面。

安全与开放之间的平衡难题

当具备高级网络安全能力的AI模型面向公众开放时，如何在推动安全研究进步与防范潜在滥用之间取得平衡？这一问题在学术界被称为"攻防不对称性"（offense-defense asymmetry）问题。在网络安全领域，攻击者只需找到一个漏洞即可得手，而防御者必须堵住所有漏洞。当AI模型大幅降低了漏洞发现的技术门槛后，原本需要高级安全专家才能完成的攻击侦察工作，可能被更广泛的群体所掌握。

目前，各主要AI实验室采取的应对措施包括：使用分级安全策略（如OpenAI的使用政策分级系统）、部署输出过滤器以拦截明确的恶意请求、以及与安全研究社区合作建立漏洞披露机制。在监管层面，欧盟《AI法案》将具有网络攻击能力的AI系统归类为高风险系统，要求开发者进行强制性的合规评估；美国则通过行政命令要求开发者在模型发布前向政府报告安全测试结果。

GPT-5.5的公开可用性使这一问题从理论讨论变成了现实挑战。企业和监管机构都需要尽快建立相应的使用规范和监控机制。

总结

英国AI安全研究所的这次评估再次证实，前沿AI模型在网络安全领域已经具备了不容忽视的能力。随着GPT-5.5等模型的广泛部署，安全社区需要重新审视现有的防御策略，同时积极探索如何将AI的漏洞发现能力转化为防御优势。AISI的持续评估工作为行业和监管层面的决策提供了宝贵的参考框架。

核心要点

英国AI安全研究所（AISI）完成了对OpenAI GPT-5.5网络安全能力的评估
GPT-5.5在发现安全漏洞方面的能力与Anthropic的Claude Mythos基本相当
关键区别在于GPT-5.5已面向公众开放，而Claude Mythos评估时仍处于预览阶段
具备高级漏洞发现能力的AI模型公开可用，对安全防御体系提出新挑战
顶级AI模型在网络安全能力上的趋同反映了行业竞争格局的变化