英国AISI评估报告:GPT-5.5网络安全能力与Claude Mythos相当

英国AISI评估显示GPT-5.5网络安全能力与Claude Mythos相当,但已公开可用引发安全治理讨论。
英国AI安全研究所发布GPT-5.5网络安全能力评估报告,结果显示其漏洞发现能力与Anthropic的Claude Mythos处于同一水平,表明顶级大模型在该领域能力趋于收敛。关键区别在于GPT-5.5已面向公众开放,而Claude Mythos仍处于预览阶段,这使得实际风险因可获取性大幅增加。报告推动了AI安全评估标准化,也为双重用途技术的治理提出了新挑战。
英国AISI发布GPT-5.5网络安全能力评估报告
英国AI安全研究所(AI Safety Institute, AISI)近日发布了对OpenAI最新模型GPT-5.5在网络安全领域能力的评估报告。此前,该机构已对Anthropic的Claude Mythos进行了类似评估。结果显示,GPT-5.5在发现安全漏洞方面的能力与Claude Mythos相当,但一个关键区别在于——GPT-5.5目前已经面向公众开放使用。
这一评估结果引发了业界对AI模型在网络安全攻防中角色的深入讨论,也为AI安全治理提供了重要的参考依据。
评估背景与方法
英国AI安全研究所的职责定位
英国AI安全研究所是全球AI安全领域的重要机构之一,其核心职责包括对前沿AI模型进行系统性的安全评估。该机构最初于2023年在英国AI安全峰会期间宣布成立,前身为英国政府的前沿AI任务组(Frontier AI Taskforce)。2024年初,AISI经历了组织架构调整,从最初隶属于英国科学、创新与技术部(DSIT)的内部团队,逐步发展为具有更大独立性的评估机构。AISI的核心使命是在前沿AI模型发布前后对其进行安全评估,覆盖多个风险维度,包括生物安全、网络安全、自主性和说服力等。在全球范围内,AISI与美国AI安全研究所(US AISI,隶属于NIST)、以及其他国家的类似机构形成了协作网络,共同推动AI安全评估的国际标准建设。
在网络安全(cyber capabilities)维度上,AISI重点关注AI模型是否能够被用于发现和利用软件系统中的安全漏洞。这里的"网络安全能力"是一个多层次的概念,涵盖了从识别代码中的潜在缺陷、理解复杂系统架构的攻击面、到生成可执行的漏洞利用代码(exploit)等一系列能力。评估通常会设计多个难度梯度的任务场景,从简单的已知漏洞模式识别(如缓冲区溢出、SQL注入等常见漏洞类型),到需要多步推理的复杂攻击链构建(即将多个低危漏洞串联形成高危攻击路径的能力)。AISI的评估框架还会考察模型在"零日漏洞"(zero-day vulnerability,即尚未被公开披露或修补的安全缺陷)发现场景中的表现,这被认为是衡量AI网络安全能力上限的关键指标。
从Claude Mythos到GPT-5.5的评估演进
AISI此前已经对Anthropic的Claude Mythos预览版进行了网络安全能力评估。此次将评估范围扩展到OpenAI的GPT-5.5,体现了该机构对主流大模型厂商产品进行全面覆盖的策略。通过横向对比不同厂商的模型,AISI能够更准确地描绘当前AI在网络安全领域的能力边界。
值得注意的是,这种跨厂商的横向评估在方法论上面临诸多挑战。不同模型的架构设计、训练数据构成、对齐策略和安全护栏实现方式各不相同,这意味着评估需要设计足够通用的任务基准(benchmark),以确保比较的公平性。AISI采用的评估方法通常包括:标准化的CTF(Capture The Flag,夺旗赛)风格挑战题目、真实世界漏洞的复现任务、以及模拟渗透测试场景等。这些任务的设计参考了专业安全研究人员的实际工作流程,能够较为客观地反映模型在辅助或独立完成安全研究任务时的真实能力水平。
核心发现:GPT-5.5漏洞发现能力评估结果
与Claude Mythos处于同一水平
评估结果表明,GPT-5.5在发现安全漏洞方面的表现与Claude Mythos处于同一水平。这意味着当前顶级大语言模型在网络安全任务上的能力正在趋于收敛——不同厂商的旗舰模型在这一特定领域展现出了相似的能力上限。
从技术角度理解这一结论,大语言模型在网络安全任务中的能力主要体现在几个层面:首先是代码理解与审计能力,即模型能否准确识别源代码或二进制程序中的安全缺陷;其次是漏洞利用推理能力,即模型能否基于已发现的漏洞设计出有效的攻击方案;第三是安全知识的广度与深度,包括对CVE(Common Vulnerabilities and Exposures,通用漏洞披露)数据库中历史漏洞模式的理解、对各类安全工具的使用指导能力等。当前顶级模型在这些维度上的表现已经超越了初级安全从业者的水平,但在面对需要深度创造性思维的新型漏洞发现任务时,仍然与顶级人类安全研究员存在差距。
这一发现具有双重含义:
- 积极面:AI辅助安全研究的能力已经达到了一定的成熟度,可以有效协助安全团队工作。具体而言,AI模型可以大幅加速代码审计流程、自动化生成模糊测试(fuzzing)用例、辅助分析复杂的攻击面,从而帮助防御方在攻击者之前发现并修补漏洞。
- 风险面:潜在的安全风险并非某一家厂商独有,而是整个行业需要共同面对的挑战。当多个公开可用的模型都具备相似的安全研究能力时,试图通过限制单一模型来控制风险的策略将变得无效。
关键差异在于公开可用性
两个模型之间最显著的区别不在于能力本身,而在于可获取性。GPT-5.5目前已经作为通用产品向公众开放,而Claude Mythos在评估时仍处于预览阶段。这意味着GPT-5.5的网络安全能力已经可以被任何用户所使用,这对安全防御和攻击两端都产生了实际影响。
在AI安全研究领域,模型的部署策略(deployment strategy)被认为是风险管理的关键变量之一。一个模型的"危险能力"(dangerous capabilities)与其"可获取性"(accessibility)的乘积,才构成实际的风险水平。具体而言,受限访问(如仅向通过审核的研究机构开放API、设置使用配额、实施严格的使用监控等)可以显著降低滥用风险,即使模型本身具备较强的攻击辅助能力。相反,当模型完全公开可用时,即使其能力水平与受限模型相当,实际风险也会因为潜在滥用者数量的急剧增加而显著放大。OpenAI选择公开发布GPT-5.5,意味着其内部安全评估认为该模型的网络安全能力尚未超过"不可接受风险"的阈值,但AISI的独立评估为这一判断提供了外部验证视角。
AI网络安全能力的行业影响
对AI安全治理提出新挑战
当具备一定网络安全能力的AI模型面向公众开放时,安全治理面临新的挑战。防御方可以利用这些模型加速漏洞发现和修补流程,但攻击方同样可能借助这些工具降低攻击门槛。如何在开放与安全之间取得平衡,是所有AI厂商和监管机构需要持续思考的问题。
这一挑战的核心在于AI模型作为"双重用途技术"(dual-use technology)的本质属性。双重用途技术是指既可用于合法目的也可被滥用于有害目的的技术,这一概念最初源于核技术和生物技术领域的出口管制框架。在AI语境下,一个能够帮助安全工程师发现代码漏洞的模型,同样可以被恶意行为者用来寻找攻击目标。当前的治理框架主要依赖几种机制来管控这一风险:模型层面的安全对齐(通过RLHF等技术使模型拒绝明显的恶意请求)、使用层面的监控与审计(检测异常使用模式)、以及政策层面的法律威慑(明确滥用AI工具进行网络攻击的法律后果)。然而,这些机制的有效性仍在持续验证中,特别是面对具有一定技术能力的攻击者时,模型层面的安全护栏往往可以通过"越狱"(jailbreaking)技术被绕过。
推动AI安全评估标准化
英国AISI对多个厂商模型进行系统性评估的做法,正在推动AI安全评估走向标准化。这种由独立第三方机构主导的评估机制,有助于建立行业基准,也为各国政府制定AI监管政策提供了数据支撑。
当前,AI安全评估标准化面临的主要挑战包括:评估基准的时效性(随着攻防技术的演进,评估任务需要持续更新)、评估结果的可比性(不同评估机构使用的方法论差异可能导致结论不一致)、以及评估覆盖的完整性(模型能力的长尾分布意味着标准化测试可能遗漏某些特定场景下的风险)。尽管如此,AISI的实践正在为行业树立重要先例——通过公开发布评估报告,不仅增加了AI开发过程的透明度,也为其他国家的监管机构提供了可参考的方法论模板。欧盟AI法案(EU AI Act)中关于高风险AI系统的合规评估要求,以及美国白宫关于AI安全的行政命令中提出的红队测试(red-teaming)要求,都与AISI的评估实践形成了呼应。
前沿模型能力趋同的竞争格局
从GPT-5.5与Claude Mythos在网络安全能力上的相似表现来看,顶级大模型在特定任务上的能力差距正在缩小。这种能力趋同现象有其深层的技术原因:当前主流大模型在架构层面(均基于Transformer架构的变体)、训练方法论(预训练+指令微调+RLHF的范式已成为行业标准)、以及训练数据来源(互联网公开数据构成了各家模型训练语料的主体)上存在高度相似性。当模型规模达到一定量级后,在特定任务上的能力表现更多取决于训练数据中相关知识的覆盖度,而非模型架构的细微差异。对于网络安全这一领域而言,公开可用的安全研究论文、漏洞报告、CTF题解、安全工具文档等构成了有限但高质量的训练语料池,各家模型对这些数据的学习效果趋于一致。
未来的竞争可能更多体现在:
- 安全护栏的设计与有效性——即如何在保留模型安全研究辅助能力的同时,有效阻止其被用于恶意目的
- 使用策略的优化与合规性——包括分级访问控制、使用场景限制、以及与监管要求的对接
- 与安全工具链的集成深度——模型能否与现有的SAST/DAST工具、漏洞管理平台、威胁情报系统等形成有效协同
而非单纯的原始能力比拼。这意味着AI厂商在网络安全领域的差异化竞争将从"谁的模型更强"转向"谁的安全生态更完善"。
总结
英国AI安全研究所对GPT-5.5的评估为我们提供了一个重要的观察窗口:当前最先进的大语言模型已经具备了值得关注的网络安全能力,且这种能力正通过公开可用的产品触达普通用户。在AI能力快速迭代的背景下,建立持续、系统的安全评估机制比以往任何时候都更加重要。
从更宏观的视角来看,这一评估结果也反映了AI安全治理正在从理论讨论走向实证驱动的阶段。独立评估机构通过对具体模型的量化测试,为政策制定者提供了基于证据的决策依据,也为公众理解AI风险提供了更加具体和可感知的参照。随着更多前沿模型接受类似评估,我们将能够更清晰地追踪AI网络安全能力的演进轨迹,并据此动态调整治理策略。
核心要点
- 英国AI安全研究所完成了对OpenAI GPT-5.5网络安全能力的系统评估
- GPT-5.5在发现安全漏洞方面的能力与Anthropic的Claude Mythos相当
- 关键区别在于GPT-5.5已面向公众开放,而Claude Mythos仍处于预览阶段
- 顶级大模型在网络安全任务上的能力正趋于收敛,行业需共同应对安全挑战
- 独立第三方机构的系统性评估正推动AI安全评估走向标准化
相关推荐
前沿研究纽约中央公园发现新物种?城市昆虫猎捕计划揭秘
科学家在纽约中央公园和布鲁克林展望公园设置昆虫捕集器,试图在城市环境中发现未知物种。地球90%物种尚未被命名,城市生物多样性研究正成为生态学新趋势。
前沿研究希格斯玻色子发现始末:亲历者讲述「上帝粒子」背后的故事
费米实验室物理学家亲历讲述希格斯玻色子发现全过程:费米实验室与CERN的跨大西洋竞赛、2012年历史性宣布的幕后细节、从发现到验证的14年科学历程,以及「上帝粒子」名号的真实由来。
前沿研究SciMDR:7B小模型如何在科研推理上比肩GPT-5
耶鲁大学等机构推出SciMDR框架,通过两阶段数据合成流水线,让70亿参数小模型在科研文献阅读理解上达到接近GPT-5水平。本文详解其降维构建与升维重塑的核心技术原理及实验结果。