英国AISI评估报告：GPT-5.5网络安全能力比肩Claude Mythos

英国AI安全研究所发布GPT-5.5网络安全评估报告

英国AI安全研究所（AI Safety Institute, AISI）近日发布了对OpenAI最新模型GPT-5.5的网络安全能力评估报告。此前，该机构已对Anthropic的Claude Mythos完成了类似评估。结果显示，GPT-5.5在发现安全漏洞方面的能力与Claude Mythos基本相当，但存在一个关键区别——GPT-5.5已面向公众开放使用。

AISI成立于2023年11月，是全球首个由国家政府设立的专门从事前沿AI安全研究与评估的机构，最初隶属于英国科学、创新与技术部（DSIT），后于2025年初重组为独立运营的公共机构。该机构在2023年英国主办的全球首届AI安全峰会（Bletchley Park Summit）上正式宣布成立，是峰会最重要的制度性成果之一。AISI与OpenAI、Anthropic、Google DeepMind等主要AI实验室建立了模型预发布评估的合作机制，使其能够在模型正式上线前获取测试权限，从而为政策制定者提供独立、可靠的技术参考。

AI模型的网络安全能力为何需要评估

随着大语言模型能力快速提升，它们在网络安全领域的潜在应用和风险同步增长。AI模型是一把双刃剑：既能帮助安全研究人员发现和修复漏洞，也可能被恶意行为者利用来寻找系统弱点。

具体而言，在防御端，大语言模型可以辅助代码审计——自动扫描数百万行代码中的潜在漏洞、生成安全补丁建议、分析恶意软件行为模式，以及自动化威胁情报的收集与分析。在攻击端，大语言模型可能被用于自动化漏洞挖掘、生成高度定制化的社会工程攻击话术（如钓鱼邮件）、编写恶意代码变体以绕过检测，甚至辅助策划复杂的多阶段网络攻击。2024年以来，多项研究表明前沿大语言模型在CTF（Capture The Flag，夺旗赛）等网络安全竞赛中的表现已接近甚至超过部分人类参赛者，这使得对其能力的系统性评估变得尤为紧迫。

英国AI安全研究所正是基于这一背景，将网络安全能力评估纳入AI安全评估的核心环节。通过系统性测试前沿AI模型在漏洞发现方面的实际表现，AISI为政策制定者和行业从业者提供了关于AI风险水平的独立参考依据。

GPT-5.5与Claude Mythos的评估对比

漏洞发现能力处于同一水平

AISI的评估重点聚焦于AI模型发现安全漏洞的能力。评估通常采用多层次的测试框架：让AI模型在受控环境中尝试识别已知和未知的软件漏洞（如缓冲区溢出、SQL注入、权限提升漏洞等），评估其编写漏洞利用代码（exploit）的能力，以及测试其在模拟攻防场景中的自主推理水平。评估参照CVE（Common Vulnerabilities and Exposures，通用漏洞披露）数据库中的真实案例，同时也设计全新的挑战场景以测试模型的泛化能力。这类评估的难点在于如何在充分测试模型能力的同时，避免评估过程本身产生可被滥用的安全知识。

根据报告结论，GPT-5.5在漏洞发现这一维度上的表现与Anthropic的Claude Mythos处于同一水平线。这表明两大AI实验室的旗舰模型在网络安全相关任务上已触及相似的能力边界。

公开可用性带来的差异化影响

两者之间最值得关注的差异在于可用性。Claude Mythos在接受评估时尚未全面公开发布，而GPT-5.5已经向普通用户开放。这一差异带来了几方面现实影响：

安全风险扩大：具备较强漏洞发现能力的模型一旦公开可用，意味着更广泛的用户群体——包括潜在的恶意行为者——都能接触到这种能力。
防御能力提升：安全研究人员和企业同样可以立即借助GPT-5.5增强自身的安全防护水平。
政策制定参考：模型能力与可用性的组合，是评估AI实际风险时必须综合考量的关键因素。

AISI独立评估的多重价值

英国AI安全研究所开展的这类评估工作，在当前AI治理体系中扮演着不可替代的角色。

第一，它为AI模型的网络安全能力提供了独立的第三方基准数据，弥补了完全依赖AI公司自我报告所带来的信息不对称问题。第二，通过对不同公司模型的横向比较，有助于构建行业层面的AI能力图谱，让各方对前沿模型的真实水平有更清晰的认知。

值得一提的是，AISI此前已公开了Claude Mythos的评估结果，此次GPT-5.5评估延续了这一透明化实践。这种持续性的评估机制，对于追踪AI能力的演进速度和制定相应的监管策略至关重要。

对行业和安全从业者的启示

从更宏观的视角来看，GPT-5.5和Claude Mythos在网络安全能力上的趋同，折射出前沿AI模型在特定领域能力上的收敛趋势。这种趋同的技术根源在于：主要AI实验室在训练数据来源、模型架构（均基于Transformer架构的变体）、训练方法（如RLHF——基于人类反馈的强化学习）以及规模化策略上存在高度相似性。各大AI实验室的模型正在达到相似的能力水平，这使得AI治理和安全评估的标准化工作变得更加紧迫。

能力趋同对治理提出了新要求：当多个模型达到相似的风险水平时，针对单一模型的监管措施效果有限，行业需要建立统一的能力评估基准和风险分级标准。目前，国际上正在推进的相关努力包括NIST的AI风险管理框架、欧盟AI法案中对高风险AI系统的分类标准，以及由AISI等机构推动的前沿AI安全评估协议。标准化的核心难题在于如何定义"危险能力阈值"——即AI模型在网络安全等敏感领域的能力达到何种水平时，需要触发额外的安全管控措施。

对于企业和安全从业者而言，这份评估报告传递了一个明确信号：AI辅助的漏洞发现已经从实验室走向了现实应用场景。无论是用于红队攻防演练还是日常安全审计，准确了解这些模型的真实能力边界，都是做出合理安全决策的基础。红队（Red Team）攻防演练是网络安全领域的核心实践方法，指由专业安全人员模拟真实攻击者的战术、技术和流程（TTPs），对目标系统进行渗透测试。传统红队演练高度依赖人类专家的经验和创造力，成本高昂且覆盖范围有限。AI模型的引入正在改变这一格局——AI可以大幅加速漏洞扫描和初步渗透测试的速度，使红队能够在更短时间内覆盖更大的攻击面。同时，AI也被用于"紫队"（Purple Team）协作模式中，即攻防双方实时协同，AI同时辅助攻击模拟和防御优化。不过，AI红队工具的普及也引发了关于"攻防平衡"是否会被打破的担忧——如果攻击侧的自动化速度远超防御侧的响应能力，整体安全态势可能恶化。

核心要点

英国AI安全研究所（AISI）完成了对OpenAI GPT-5.5网络安全能力的独立评估
GPT-5.5在发现安全漏洞方面的能力与Anthropic的Claude Mythos相当
关键区别在于GPT-5.5已公开可用，而Claude Mythos在评估时尚未全面发布
AI模型的网络安全能力评估对于理解AI风险和制定治理政策至关重要
前沿AI模型在网络安全能力上呈现趋同态势，标准化评估机制的需求日益迫切