英国AISI评估GPT-5.5网络安全能力：与Claude Mythos相当但已公开可用

概述

英国AI安全研究所（AI Safety Institute, AISI）近日发布了对OpenAI最新模型GPT-5.5网络安全能力的评估报告。此前，该机构已对Anthropic的Claude Mythos进行了类似评估。结果显示，GPT-5.5在发现安全漏洞方面的能力与Claude Mythos相当，但一个关键区别在于——GPT-5.5目前已面向公众开放使用。

评估背景：AI模型的网络安全能力为何重要

随着大语言模型能力的快速提升，其在网络安全领域的潜在应用和风险正受到越来越多的关注。AI模型能否自主发现软件中的安全漏洞，这一问题直接关系到两个层面：

防御层面：AI高效发现漏洞，安全团队可以利用它来加固系统
攻击层面：同样的能力也可能被恶意行为者利用来寻找攻击入口

从技术机制上看，大语言模型发现安全漏洞的能力主要依赖于其在海量代码库和安全研究文献上的训练。模型能够识别常见的漏洞模式（如缓冲区溢出、SQL注入、跨站脚本攻击等），并将这些模式应用于新的代码审计场景。更先进的模型还能进行多步推理，模拟攻击链（attack chain），即将多个低危漏洞组合成高危攻击路径。这种能力此前需要经验丰富的渗透测试专家花费数天甚至数周才能完成，而AI模型可以在数分钟内完成初步扫描。

正因如此，英国AISI将AI模型的网络安全能力评估作为其核心工作之一。英国AI安全研究所成立于2023年11月，是全球首个由国家政府设立的专门针对前沿AI模型进行安全评估的机构。它脱胎于2023年英国主办的布莱切利公园AI安全峰会（Bletchley Park AI Safety Summit）的承诺，旨在对最先进的AI系统进行独立的技术评估，涵盖生物安全、网络安全、自主性等多个风险维度。AISI与OpenAI、Anthropic、Google DeepMind等主要AI实验室建立了模型预发布评估的合作关系，使其能够在模型公开部署前或部署初期获得测试访问权限。此前对Claude Mythos的评估已经建立了一套方法论框架，此次对GPT-5.5的评估延续了这一路径。

AISI的评估方法论

AISI的网络安全评估通常采用多层次的测试方法：包括标准化的CTF（Capture The Flag）挑战题、真实世界CVE（Common Vulnerabilities and Exposures，通用漏洞披露）漏洞的复现测试、以及在受控环境中对模拟系统的自主渗透测试。评估不仅关注模型能否识别已知漏洞类型，还测试其发现零日漏洞（zero-day vulnerabilities，即尚未被公开披露或修补的漏洞）的潜力，以及在无人类指导下完成完整攻击链的自主程度。这种分级评估框架有助于区分"辅助性"能力（模型作为人类安全研究员的工具）和"变革性"能力（模型能独立完成端到端的攻击或防御任务）之间的界限。

评估结果：GPT-5.5与Claude Mythos能力相当

漏洞发现能力对比

AISI的评估聚焦于模型发现安全漏洞的能力。根据报告，GPT-5.5在这一维度上的表现与Anthropic的Claude Mythos处于同一水平。这意味着当前顶级AI模型在网络安全任务上正趋于能力收敛——不同厂商的旗舰模型在特定安全任务上的差距正在缩小。

这种能力收敛（capability convergence）现象的技术根源在于：各大实验室使用的训练数据来源高度重叠（互联网公开数据、学术论文、开源代码等），采用的基础架构（Transformer）相同，且训练方法论（预训练+RLHF/RLAIF等人类反馈强化学习方法）趋于一致。当模型规模达到一定阈值后，在标准化基准测试上的表现差异往往缩小到统计误差范围内。这一趋势意味着，任何单一厂商在网络安全能力上的"领先优势"可能只是暂时的，行业整体能力水位在同步上升。

关键差异：公开可用性带来的安全挑战

尽管两个模型在能力上相当，但存在一个重要的现实差异：GPT-5.5目前已经公开可用，而Claude Mythos在评估时尚未全面开放。这意味着GPT-5.5的网络安全能力已经处于"野外"状态，任何人都可以通过API或产品界面访问这些能力。

模型的公开可用性在AI安全讨论中是一个核心变量。当模型仅在受控环境中运行时，开发者可以通过使用政策、速率限制和输出过滤等手段降低滥用风险。但一旦模型通过API或消费级产品广泛部署，这些控制措施的有效性就大幅降低。攻击者可以通过提示注入（prompt injection）、越狱（jailbreaking）等技术绕过安全护栏，或者简单地将模型输出作为攻击研究的辅助参考。更值得关注的是，即使模型本身设有安全限制，其生成的部分信息——如对漏洞原理的解释、对攻击向量的分析——仍可能为具备一定技术基础的攻击者提供有价值的线索。

这一差异对AI安全治理提出了更紧迫的要求——当具备漏洞发现能力的模型已经广泛可用时，防御方需要更快地适应这一新现实。安全团队不能再假设攻击者缺乏自动化漏洞发现工具，而应将AI辅助攻击纳入威胁模型的基准假设中。

更广泛的行业影响

AI安全评估走向制度化

英国AISI连续对多个前沿模型进行网络安全评估，标志着AI安全评估正在走向制度化和常态化。这种由政府机构主导的独立评估，为公众和决策者提供了相对客观的参考依据，也为AI厂商的安全实践设立了外部基准。

值得注意的是，AISI的评估模式正在影响全球AI治理格局。美国的AI安全研究所（US AI Safety Institute，隶属于NIST）、欧盟的AI办公室（EU AI Office）以及其他国家的类似机构都在建立各自的评估框架。这种多边评估体系的形成，有望推动AI安全评估标准的国际协调，避免出现监管碎片化的局面。对于AI开发者而言，来自多个独立机构的评估结果也提供了交叉验证的机会，增强了评估结论的可信度。

网络安全领域的双刃剑效应

有意思的是，AI在网络安全领域的能力提升是一把典型的双刃剑。同一个模型既可以被安全研究人员用于漏洞扫描和代码审计，也可能被攻击者用于自动化漏洞挖掘。随着模型能力的持续提升，如何在促进安全研究与防范滥用之间取得平衡，将成为行业和监管机构面临的核心挑战。

从历史角度看，这种双刃剑效应在安全工具领域并非新鲜事——Metasploit、Nmap等经典安全工具同样既服务于合法的渗透测试，也可能被恶意使用。但AI模型带来的质变在于其"降低门槛"的效应：传统安全工具需要使用者具备深厚的技术背景，而AI模型可以通过自然语言交互，让技术能力较低的用户也能执行复杂的安全分析任务。这种"民主化"效应在防御端是积极的（更多组织能够进行安全审计），但在攻击端则令人担忧（攻击的技术门槛显著降低）。

OpenAI与Anthropic的竞争格局

从技术竞争的角度看，GPT-5.5与Claude Mythos在网络安全能力上的对等表现，再次印证了当前AI领域"多强并立"的格局。两家公司在模型能力上的差距正在缩小，竞争焦点可能逐渐转向部署速度、生态建设和安全治理等维度。

两家公司在安全理念上的差异也值得关注。Anthropic长期以"AI安全公司"自居，强调其Constitutional AI（宪法AI）方法论和谨慎的部署策略；OpenAI则倾向于更快速的产品化和更广泛的公开部署。此次评估结果恰好体现了这种策略差异的现实后果：能力相当的模型，因部署策略不同而产生了不同的社会风险特征。这也为行业提出了一个深层问题——在前沿AI能力的部署节奏上，"快速迭代、广泛可用"与"谨慎评估、受控释放"哪种路径更有利于整体安全？

总结

英国AISI对GPT-5.5的网络安全评估为我们提供了一个重要的观察窗口：前沿AI模型的网络安全能力正在快速提升并趋于同质化，而这些能力已经通过公开产品触达了广泛的用户群体。对于安全社区而言，这既是机遇也是警示——利用AI增强防御能力的同时，必须正视其被滥用的风险，并推动建立相应的评估和治理机制。

展望未来，随着AI模型能力的持续攀升，网络安全领域可能进入一个"AI对AI"的新阶段：防御方使用AI进行实时漏洞检测和自动修补，攻击方则利用AI进行自动化漏洞挖掘和攻击生成。在这场技术军备竞赛中，独立的第三方评估机构（如AISI）的角色将愈发关键——它们不仅提供能力基准，更为政策制定者提供了基于证据的决策依据。

核心要点

英国AI安全研究所（AISI）完成了对OpenAI GPT-5.5网络安全能力的评估
GPT-5.5在发现安全漏洞方面的能力与Anthropic的Claude Mythos相当
关键区别在于GPT-5.5已公开可用，而Claude Mythos在评估时尚未全面开放
AI模型的网络安全能力评估正走向制度化，由政府机构主导的独立评估日益常态化
前沿AI模型的安全能力提升是双刃剑，需在促进安全研究与防范滥用之间取得平衡
模型能力收敛趋势意味着安全治理不能依赖单一厂商的自律，需要系统性的制度保障