英国AISI评估报告:GPT-5.5网络安全能力比肩Claude Mythos

英国AISI评估显示GPT-5.5网络安全漏洞发现能力与Claude Mythos相当,但已公开可用。
英国AI安全研究所(AISI)发布GPT-5.5网络安全评估报告,结果显示其漏洞发现能力与Anthropic的Claude Mythos处于同一水平,但关键区别在于GPT-5.5已面向公众开放,扩大了潜在安全风险与防御应用的范围。报告反映出前沿AI模型在网络安全能力上的趋同趋势,凸显了建立统一评估基准和风险分级标准的紧迫性。
英国AI安全研究所发布GPT-5.5网络安全评估报告
英国AI安全研究所(AI Safety Institute, AISI)近日发布了对OpenAI最新模型GPT-5.5的网络安全能力评估报告。此前,该机构已对Anthropic的Claude Mythos完成了类似评估。结果显示,GPT-5.5在发现安全漏洞方面的能力与Claude Mythos基本相当,但存在一个关键区别——GPT-5.5已面向公众开放使用。
AISI成立于2023年11月,是全球首个由国家政府设立的专门从事前沿AI安全研究与评估的机构,最初隶属于英国科学、创新与技术部(DSIT),后于2025年初重组为独立运营的公共机构。该机构在2023年英国主办的全球首届AI安全峰会(Bletchley Park Summit)上正式宣布成立,是峰会最重要的制度性成果之一。AISI与OpenAI、Anthropic、Google DeepMind等主要AI实验室建立了模型预发布评估的合作机制,使其能够在模型正式上线前获取测试权限,从而为政策制定者提供独立、可靠的技术参考。
AI模型的网络安全能力为何需要评估
随着大语言模型能力快速提升,它们在网络安全领域的潜在应用和风险同步增长。AI模型是一把双刃剑:既能帮助安全研究人员发现和修复漏洞,也可能被恶意行为者利用来寻找系统弱点。
具体而言,在防御端,大语言模型可以辅助代码审计——自动扫描数百万行代码中的潜在漏洞、生成安全补丁建议、分析恶意软件行为模式,以及自动化威胁情报的收集与分析。在攻击端,大语言模型可能被用于自动化漏洞挖掘、生成高度定制化的社会工程攻击话术(如钓鱼邮件)、编写恶意代码变体以绕过检测,甚至辅助策划复杂的多阶段网络攻击。2024年以来,多项研究表明前沿大语言模型在CTF(Capture The Flag,夺旗赛)等网络安全竞赛中的表现已接近甚至超过部分人类参赛者,这使得对其能力的系统性评估变得尤为紧迫。
英国AI安全研究所正是基于这一背景,将网络安全能力评估纳入AI安全评估的核心环节。通过系统性测试前沿AI模型在漏洞发现方面的实际表现,AISI为政策制定者和行业从业者提供了关于AI风险水平的独立参考依据。
GPT-5.5与Claude Mythos的评估对比
漏洞发现能力处于同一水平
AISI的评估重点聚焦于AI模型发现安全漏洞的能力。评估通常采用多层次的测试框架:让AI模型在受控环境中尝试识别已知和未知的软件漏洞(如缓冲区溢出、SQL注入、权限提升漏洞等),评估其编写漏洞利用代码(exploit)的能力,以及测试其在模拟攻防场景中的自主推理水平。评估参照CVE(Common Vulnerabilities and Exposures,通用漏洞披露)数据库中的真实案例,同时也设计全新的挑战场景以测试模型的泛化能力。这类评估的难点在于如何在充分测试模型能力的同时,避免评估过程本身产生可被滥用的安全知识。
根据报告结论,GPT-5.5在漏洞发现这一维度上的表现与Anthropic的Claude Mythos处于同一水平线。这表明两大AI实验室的旗舰模型在网络安全相关任务上已触及相似的能力边界。
公开可用性带来的差异化影响
两者之间最值得关注的差异在于可用性。Claude Mythos在接受评估时尚未全面公开发布,而GPT-5.5已经向普通用户开放。这一差异带来了几方面现实影响:
- 安全风险扩大:具备较强漏洞发现能力的模型一旦公开可用,意味着更广泛的用户群体——包括潜在的恶意行为者——都能接触到这种能力。
- 防御能力提升:安全研究人员和企业同样可以立即借助GPT-5.5增强自身的安全防护水平。
- 政策制定参考:模型能力与可用性的组合,是评估AI实际风险时必须综合考量的关键因素。
AISI独立评估的多重价值
英国AI安全研究所开展的这类评估工作,在当前AI治理体系中扮演着不可替代的角色。
第一,它为AI模型的网络安全能力提供了独立的第三方基准数据,弥补了完全依赖AI公司自我报告所带来的信息不对称问题。第二,通过对不同公司模型的横向比较,有助于构建行业层面的AI能力图谱,让各方对前沿模型的真实水平有更清晰的认知。
值得一提的是,AISI此前已公开了Claude Mythos的评估结果,此次GPT-5.5评估延续了这一透明化实践。这种持续性的评估机制,对于追踪AI能力的演进速度和制定相应的监管策略至关重要。
对行业和安全从业者的启示
从更宏观的视角来看,GPT-5.5和Claude Mythos在网络安全能力上的趋同,折射出前沿AI模型在特定领域能力上的收敛趋势。这种趋同的技术根源在于:主要AI实验室在训练数据来源、模型架构(均基于Transformer架构的变体)、训练方法(如RLHF——基于人类反馈的强化学习)以及规模化策略上存在高度相似性。各大AI实验室的模型正在达到相似的能力水平,这使得AI治理和安全评估的标准化工作变得更加紧迫。
能力趋同对治理提出了新要求:当多个模型达到相似的风险水平时,针对单一模型的监管措施效果有限,行业需要建立统一的能力评估基准和风险分级标准。目前,国际上正在推进的相关努力包括NIST的AI风险管理框架、欧盟AI法案中对高风险AI系统的分类标准,以及由AISI等机构推动的前沿AI安全评估协议。标准化的核心难题在于如何定义"危险能力阈值"——即AI模型在网络安全等敏感领域的能力达到何种水平时,需要触发额外的安全管控措施。
对于企业和安全从业者而言,这份评估报告传递了一个明确信号:AI辅助的漏洞发现已经从实验室走向了现实应用场景。无论是用于红队攻防演练还是日常安全审计,准确了解这些模型的真实能力边界,都是做出合理安全决策的基础。红队(Red Team)攻防演练是网络安全领域的核心实践方法,指由专业安全人员模拟真实攻击者的战术、技术和流程(TTPs),对目标系统进行渗透测试。传统红队演练高度依赖人类专家的经验和创造力,成本高昂且覆盖范围有限。AI模型的引入正在改变这一格局——AI可以大幅加速漏洞扫描和初步渗透测试的速度,使红队能够在更短时间内覆盖更大的攻击面。同时,AI也被用于"紫队"(Purple Team)协作模式中,即攻防双方实时协同,AI同时辅助攻击模拟和防御优化。不过,AI红队工具的普及也引发了关于"攻防平衡"是否会被打破的担忧——如果攻击侧的自动化速度远超防御侧的响应能力,整体安全态势可能恶化。
核心要点
- 英国AI安全研究所(AISI)完成了对OpenAI GPT-5.5网络安全能力的独立评估
- GPT-5.5在发现安全漏洞方面的能力与Anthropic的Claude Mythos相当
- 关键区别在于GPT-5.5已公开可用,而Claude Mythos在评估时尚未全面发布
- AI模型的网络安全能力评估对于理解AI风险和制定治理政策至关重要
- 前沿AI模型在网络安全能力上呈现趋同态势,标准化评估机制的需求日益迫切
相关推荐
前沿研究纽约中央公园发现新物种?城市昆虫猎捕计划揭秘
科学家在纽约中央公园和布鲁克林展望公园设置昆虫捕集器,试图在城市环境中发现未知物种。地球90%物种尚未被命名,城市生物多样性研究正成为生态学新趋势。
前沿研究希格斯玻色子发现始末:亲历者讲述「上帝粒子」背后的故事
费米实验室物理学家亲历讲述希格斯玻色子发现全过程:费米实验室与CERN的跨大西洋竞赛、2012年历史性宣布的幕后细节、从发现到验证的14年科学历程,以及「上帝粒子」名号的真实由来。
前沿研究SciMDR:7B小模型如何在科研推理上比肩GPT-5
耶鲁大学等机构推出SciMDR框架,通过两阶段数据合成流水线,让70亿参数小模型在科研文献阅读理解上达到接近GPT-5水平。本文详解其降维构建与升维重塑的核心技术原理及实验结果。