英国AI安全研究所评估GPT-5.5：网络安全能力比肩Claude Mythos

英国AI安全研究所（AI Safety Institute, AISI）近日发布了对OpenAI最新模型GPT-5.5的网络安全能力评估报告。结果显示，GPT-5.5在发现安全漏洞方面的表现与Anthropic的Claude Mythos相当，但关键区别在于——GPT-5.5已经面向公众开放使用。这份报告为我们理解前沿AI模型的网络安全风险提供了重要的第一手数据。

评估背景：AI模型的网络安全能力为何备受关注

随着大语言模型能力的快速跃升，AI在网络安全领域的潜在应用与潜在威胁已成为各国政府和安全机构的核心议题。英国AI安全研究所是全球首批专门评估前沿AI模型安全性的政府机构之一，此前已完成对Anthropic Claude Mythos预览版的网络安全能力评估。

英国AI安全研究所成立于2023年11月，是在当年举办的布莱切利园AI安全峰会（Bletchley Park AI Safety Summit）之后正式组建的政府机构。该研究所最初隶属于英国科学、创新与技术部（DSIT），其核心使命是对前沿AI模型进行独立的安全评估，涵盖生物安全、网络安全、自主性等多个风险维度。AISI的评估方法论强调"红队测试"（red-teaming）和结构化能力探测，即通过精心设计的测试场景系统性地探查模型的潜在危险能力。该机构与OpenAI、Anthropic、Google DeepMind等主要AI实验室建立了自愿性的预发布评估合作关系，这种政府-企业协作模式被视为AI治理领域的重要制度创新。

此次对GPT-5.5的评估沿用了同一方法论框架，重点考察模型在发现和利用安全漏洞方面的实际能力。这种系统性的跨模型对比评估，为界定当前AI系统的网络安全能力边界提供了难得的参考基准。

核心发现：GPT-5.5与Claude Mythos能力相当但可及性不同

漏洞发现能力处于同一水平

评估结果表明，GPT-5.5在安全漏洞发现任务上的表现与Claude Mythos处于同一水平。这一结论意味着当前顶尖大语言模型在网络安全能力上正在趋于收敛——不同厂商的旗舰模型展现出了相似的能力上限。

大语言模型之所以能够展现出网络安全能力，根源在于其训练数据中包含了大量与安全相关的技术文档、漏洞报告（如CVE数据库条目）、渗透测试教程、安全研究论文以及开源安全工具的代码。当模型规模达到一定阈值后，这些分散的知识片段被整合为连贯的推理能力——模型不仅能识别已知漏洞模式，还能通过类比推理发现新的潜在弱点。具体而言，模型在网络安全任务中的能力包括：代码审计（识别缓冲区溢出、SQL注入等常见漏洞）、攻击链构造（将多个低危漏洞串联为高危利用路径）、以及漏洞利用代码生成（编写概念验证PoC代码）。

这一发现本身耐人寻味。它表明网络安全能力并非某个特定模型的独有优势，而是随着模型规模扩大和训练方法迭代，各家模型都在自然地习得这类能力。不同厂商旗舰模型在网络安全能力上的趋同，反映了当前AI发展中一个更广泛的规律——"能力涌现的普遍性"。这一现象的技术解释涉及多个层面：首先，各大实验室使用的训练数据存在高度重叠，互联网上公开可获取的高质量安全知识是有限集合；其次，Transformer架构本身的通用性意味着，只要模型参数量和训练计算量达到相近水平，不同模型会自然习得相似的能力谱；第三，强化学习从人类反馈（RLHF）和后训练对齐技术虽然在安全限制上有所差异，但对底层能力的影响有限——模型"知道如何做"与"是否被允许做"是两个不同层面的问题。这种收敛趋势也意味着，单纯依赖某一家厂商的安全措施来管控整个行业的风险是不够的。

关键差异在于公开可用性

两者之间存在一个不容忽视的实际差异：GPT-5.5已经面向公众开放，而Claude Mythos在评估时仍处于预览阶段。换言之，GPT-5.5所具备的网络安全能力已经是任何用户都可以触及的现实，而非停留在实验室中的潜在风险。

在AI安全研究中，模型的"可及性"（accessibility）被视为风险评估的关键变量之一。学术界通常使用"边际风险提升"（marginal risk uplift）这一概念来衡量AI工具对攻击者能力的实际增益——即与攻击者使用传统工具（如搜索引擎、安全论坛、开源工具）相比，AI模型额外提供了多少能力提升。RAND公司和卡内基梅隆大学等机构的研究表明，当前大语言模型对高技能攻击者的边际提升有限（因为这些人本身已掌握相关知识），但对中低技能攻击者的能力放大效应显著。GPT-5.5的公开部署意味着这种能力放大效应已经从理论风险转变为现实状态，安全社区需要据此调整威胁模型和防御优先级。

这种可及性差异对安全政策制定有着直接影响。当一个具备显著网络安全能力的AI模型已经广泛部署，防御方和攻击方都能加以利用，整个安全生态的攻防平衡可能因此发生微妙而深远的变化。

AI网络安全能力的双刃剑效应

从积极面看，具备漏洞发现能力的AI模型能够大幅提升安全研究人员的工作效率，帮助企业和组织更快地识别并修补系统弱点。对于安全预算有限的中小企业来说，这类AI工具有望成为提升防护水平的有力帮手。

但硬币的另一面同样不可回避。当漏洞发现的技术门槛因AI而显著降低，恶意行为者的攻击面也可能随之扩大。低技能攻击者借助AI工具获得此前难以企及的能力，这正是各国AI安全机构持续跟踪评估这些能力的根本原因。

对AI安全行业与治理的启示

英国AI安全研究所的这一系列评估工作，为全球AI治理树立了值得借鉴的范例：在模型发布前后开展系统性的能力评估，并将结果公开透明地分享给公众和决策者。这种做法既不阻碍技术创新，又为政策制定者和安全从业者提供了必要的信息基础。

AISI的评估工作并非孤立存在，而是全球AI安全治理制度化进程的一部分。2024年以来，多个国家和国际组织建立了类似机制：美国AI安全研究所（US AISI，隶属NIST）、日本AI安全研究所、以及韩国等国的对应机构相继成立。这些机构之间正在形成信息共享和方法论协调的网络。与此同时，OpenAI的"准备框架"（Preparedness Framework）、Anthropic的"负责任扩展政策"（Responsible Scaling Policy）以及Google DeepMind的"前沿安全框架"（Frontier Safety Framework）等企业自律机制，也将外部安全评估纳入了模型发布决策流程。这种多层次、多主体的治理架构正在成为AI行业的新常态，尽管其约束力和执行效果仍有待时间检验。

随着GPT-5.5等新一代模型陆续发布，AI模型的网络安全能力评估势必成为发布流程中日益标准化的环节。如何在充分释放AI安全防御潜力的同时有效管控攻击风险，将是整个行业需要持续面对的核心挑战。

对于关注AI安全动态的从业者而言，密切跟踪AISI等权威机构的评估报告，已经成为把握前沿AI能力演进趋势的必修课。

核心要点

英国AI安全研究所完成了对OpenAI GPT-5.5网络安全能力的系统评估
GPT-5.5在安全漏洞发现方面的能力与Anthropic的Claude Mythos相当
关键区别在于GPT-5.5已面向公众开放，而Claude Mythos仍处于预览阶段
顶尖大语言模型在网络安全能力上呈现趋同趋势，这源于训练数据重叠、架构通用性和能力涌现的普遍规律
AI网络安全能力的公开可用性对安全生态平衡带来新的挑战，尤其体现在对中低技能攻击者的能力放大效应上
全球多国正在建立AI安全评估的制度化框架，形成政府机构与企业自律相结合的多层治理架构

英国AI安全研究所评估GPT-5.5：网络安全能力比肩Claude Mythos

评估背景：AI模型的网络安全能力为何备受关注

核心发现：GPT-5.5与Claude Mythos能力相当但可及性不同

漏洞发现能力处于同一水平

关键差异在于公开可用性

AI网络安全能力的双刃剑效应

对AI安全行业与治理的启示

核心要点

相关推荐

GitHub Agent HQ发布：AI编程工具进入平台化竞争时代

Gemini 3.5 Flash在GDPval基准上实现巨大飞跃

Google Gemini Antigravity周配额三倍提升，AI编程不再受限