英国AISI评估报告:GPT-5.5网络安全能力与公开可用性引发治理关注

英国AISI评估显示GPT-5.5网络安全能力与Claude Mythos持平,但其公开可用性加剧安全治理挑战。
英国AI安全研究所发布GPT-5.5网络安全评估报告,核心发现是其漏洞发现能力与Anthropic的Claude Mythos相当,反映前沿模型在该维度上的能力趋同。关键差异在于GPT-5.5已面向公众开放,使其网络安全能力实质上可被任何人调用,安全护栏仅能提高利用门槛而非消除风险。报告凸显了模型公开可用性与安全治理之间的深层张力,呼吁建立系统性评估机制并推动国际协调。
英国AI安全研究所发布GPT-5.5网络安全评估报告
英国AI安全研究所(AI Safety Institute, AISI)近日发布了对OpenAI最新模型GPT-5.5网络安全能力的评估报告。此前,该机构已对Anthropic的Claude Mythos完成类似评估。报告核心结论是:GPT-5.5在发现安全漏洞方面的能力与Claude Mythos相当,但关键区别在于GPT-5.5目前已面向公众开放使用,这使安全治理问题变得更加紧迫。
AISI评估背景与方法论
AISI的角色与使命
英国AI安全研究所是全球少数专门从事前沿AI模型安全评估的官方机构。AISI于2023年在英国举办的全球AI安全峰会(Bletchley Park Summit)后正式成立,隶属于英国科学、创新与技术部(DSIT),是全球首个由国家层面设立的专职AI安全评估机构。其成立标志着AI安全从学术研究正式进入政府治理议程。在国际层面,AISI与美国AI安全研究所(US AISI,隶属NIST)、日本AI安全研究所等形成协作网络,共同推动前沿模型评估标准的国际协调。
其核心职责包括在前沿AI模型发布前后,对潜在危险能力进行系统性评估,重点覆盖网络安全攻击、生物威胁等高风险领域。AISI的评估工作通常基于与AI开发公司的自愿合作协议——OpenAI、Anthropic、Google DeepMind等主要前沿实验室均已签署承诺,在模型发布前向AISI提供评估访问权限。这种"预发布评估"机制虽然目前不具法律强制力,但已成为行业事实标准的一部分。
从Claude Mythos到GPT-5.5的评估延续
AISI此前已完成对Anthropic Claude Mythos模型的网络安全能力评估,建立了一套标准化评估基准。此次GPT-5.5评估沿用相同方法论框架,确保两个模型之间的横向比较具有科学参考价值。这种标准化评估方法论通常包括多个维度:让模型尝试在受控环境中识别已知漏洞(如CVE数据库中的历史漏洞)、评估模型生成漏洞利用代码(exploit)的能力、测试模型在多步骤攻击链中的推理连贯性,以及衡量模型是否能发现此前未被记录的零日漏洞(zero-day vulnerabilities)。通过在相同测试集和评估条件下对不同模型进行测试,AISI能够提供具有可比性的能力画像。
GPT-5.5网络安全能力核心发现
漏洞发现能力与Claude Mythos持平
评估数据表明,GPT-5.5在识别和发现安全漏洞方面的表现与Claude Mythos处于同一水平。
从技术机制来看,大语言模型发现安全漏洞的能力主要源于几个方面:首先,模型在训练过程中接触了大量开源代码、安全研究论文、CVE漏洞报告和渗透测试文档,使其内化了常见漏洞模式(如缓冲区溢出、SQL注入、权限提升路径等)的识别能力;其次,前沿模型强大的长上下文推理能力使其能够追踪复杂代码中的数据流和控制流,发现跨函数甚至跨模块的逻辑漏洞;第三,与传统静态分析工具(如Semgrep、CodeQL)相比,LLM的优势在于能够理解代码的语义意图而非仅匹配语法模式,从而识别出规则引擎难以覆盖的新型漏洞变体。不过需要指出的是,当前LLM在漏洞发现方面仍存在误报率较高、对极度复杂系统架构理解有限等局限。
这一结果揭示了一个重要趋势:当前最前沿的大语言模型在网络安全领域的能力正在趋同,不同厂商的顶级模型在漏洞发现这一维度上差距已经很小。
公开可用性构成关键差异
两者之间最重要的实际差异在于可用性。GPT-5.5已向公众全面开放,而Claude Mythos在接受评估时尚未全面公开。换言之,GPT-5.5的网络安全能力已经可以被任何用户访问和调用,这在安全治理层面带来了截然不同的风险考量。
值得注意的是,虽然OpenAI等公司在模型中部署了安全对齐措施和使用政策限制(如拒绝直接生成恶意代码的请求),但安全研究社区已反复证明,这些防护措施可以通过各种"越狱"(jailbreak)技术绕过。从提示注入(prompt injection)到角色扮演诱导,再到多轮对话中的渐进式引导,攻击者有多种手段获取模型的底层能力。这意味着模型的公开可用性在实质上等同于其全部能力的公开可用性,安全护栏的存在只能提高利用门槛而非根本消除风险。
AI网络安全能力的深层影响分析
双刃剑效应不可忽视
大语言模型网络安全能力的提升是一把典型的双刃剑:
-
防御端价值:安全研究人员和企业可利用这些能力主动发现并修补漏洞,提升整体安全水平。实际上,多家网络安全公司已将LLM集成到其产品中——例如微软的Security Copilot利用GPT系列模型辅助安全分析师进行威胁检测和事件响应,Google的Big Sleep项目则利用LLM成功发现了真实软件中的零日漏洞。对于资源有限的中小企业而言,AI驱动的安全工具有望大幅降低专业安全审计的成本门槛。
-
攻击端风险:恶意行为者同样可能借助模型能力发现并利用漏洞实施攻击。历史上,网络攻击的技术门槛一直是限制攻击规模的重要因素——编写高质量的漏洞利用代码通常需要多年的专业训练。LLM的普及可能显著降低这一门槛,使得原本只有高级持续性威胁(APT)组织才具备的能力扩散到更广泛的攻击者群体。2024年已有多份威胁情报报告记录了攻击者利用AI辅助编写钓鱼邮件、生成恶意代码变体和自动化侦察流程的案例。
第三方评估机制的行业价值
AISI持续对前沿模型进行独立评估,为整个AI行业提供了重要参考。这种官方背景的第三方评估有助于:
- 建立对模型能力边界的客观认知
- 为各国监管决策提供数据支撑
- 推动AI公司在安全能力披露方面的透明度
这一机制的重要性还在于它弥补了AI公司自我评估的固有局限。AI开发公司在评估自身模型时面临明显的利益冲突——过于强调风险可能影响产品发布节奏和市场竞争力,而淡化风险则可能导致安全隐患被忽视。独立第三方评估提供了一个相对中立的视角,其结论更容易获得公众和监管机构的信任。
模型公开可用性与安全治理的张力
当具备显著网络安全能力的模型面向公众开放时,如何平衡技术创新开放与安全风险管控就成为核心治理议题。GPT-5.5已公开可用这一事实,意味着围绕其网络安全能力的讨论已不再是学术假设——它是一个需要立即应对的现实治理挑战。
当前各国在这一问题上的政策取向存在显著分歧。欧盟《AI法案》采取了基于风险分级的监管框架,对"通用AI模型"(GPAI)设定了透明度和安全评估义务,具有系统性风险的模型需要进行对抗性测试和事件报告。美国则更倾向于行业自律与行政命令相结合的路径——拜登政府2023年的AI行政命令要求开发者向政府报告大规模模型的安全测试结果,但未设定强制性的发布限制。英国自身采取"亲创新"立场,AISI的评估目前基于自愿合作而非法律强制。
传统网络安全领域的"负责任披露"(Responsible Disclosure)原则——即发现漏洞后先通知厂商修补再公开——在AI时代面临根本性挑战。当漏洞发现能力本身被嵌入一个公开可用的通用工具中时,"披露"的概念变得模糊:问题不再是某个特定漏洞是否被公开,而是发现漏洞的通用能力是否应该被公开。这是一个前所未有的治理难题。
对AI行业与网络安全生态的影响
这一评估结果对行业有多层含义:
能力水平已达监管门槛:前沿模型的网络安全能力已达到值得官方机构认真对待和持续追踪的水平。
能力趋同反映技术规律:不同厂商顶级模型在网络安全维度上的趋同表现,说明这可能是模型规模扩大和训练方法演进的自然结果,而非某家公司的独特优势。这种趋同现象背后有深层的技术原因。首先,Scaling Laws(缩放定律)表明,当模型参数量和训练数据量达到一定规模后,模型在各项能力上的表现会呈现可预测的提升曲线——不同公司只要投入足够的计算资源,就会在相似的能力水平上收敛。其次,前沿模型的训练数据存在高度重叠——互联网上公开可用的高质量代码库、安全研究文献和技术文档是有限的,各家公司不可避免地在相似的数据分布上训练模型。第三,Transformer架构已成为行业事实标准,各公司在模型架构层面的差异远小于外界想象,核心创新更多集中在训练策略、数据配比和后训练对齐等环节。这些因素共同导致了前沿模型在特定能力维度上的趋同,网络安全能力只是这一普遍规律的又一个例证。
安全生态面临深刻变革:随着这些模型的普及,整个网络安全生态——无论防御端还是攻击端——都将经历根本性变化,传统的攻防平衡可能被打破。具体而言,AI可能加速"漏洞发现-利用"的时间窗口压缩:过去从漏洞被发现到被大规模利用之间通常有数天到数周的缓冲期,而AI辅助的自动化攻击链可能将这一窗口压缩到数小时甚至更短。这对补丁管理、应急响应和安全运营的速度提出了前所未有的要求。
总结与展望
英国AI安全研究所对GPT-5.5的评估再次确认了前沿AI模型在网络安全领域的显著能力。在AI能力快速迭代的当下,建立系统性的模型安全评估机制、在开放创新与安全管控之间找到动态平衡,将是各国政府和AI行业共同面临的长期课题。对于网络安全从业者而言,理解并适应AI驱动的新攻防格局已刻不容缓。
展望未来,几个关键趋势值得关注:一是评估方法论本身需要持续演进——随着模型能力的快速提升,今天的评估基准可能在半年后就显得过时;二是国际协调的紧迫性日益增加——AI模型的跨境可用性意味着单一国家的监管措施效力有限;三是AI安全评估可能从自愿合作走向法律强制——随着模型能力持续攀升,仅依赖企业善意的治理模式可能不再充分。
核心要点
- 英国AI安全研究所完成了对OpenAI GPT-5.5网络安全能力的评估
- GPT-5.5在发现安全漏洞方面的能力与Anthropic的Claude Mythos相当
- GPT-5.5与Claude Mythos的关键区别在于前者已面向公众开放使用
- 前沿AI模型的网络安全能力已达到官方机构认真评估的水平
- 模型公开可用性与安全治理之间的平衡成为现实挑战
相关推荐
科技前沿GitHub Agent HQ发布:AI编程工具进入平台化竞争时代
GitHub Universe大会发布Agent HQ平台,统一管理编码Agent,Copilot升级支持多模型集成。同期OpenAI完成重组,Anthropic新模型测试,NVIDIA开源系列AI模型,AI编程工具格局加速整合。
科技前沿Gemini 3.5 Flash在GDPval基准上实现巨大飞跃
Google Gemini 3.5 Flash在GDPval基准测试中超越Gemini 3.1 Pro,轻量级Flash模型借助后训练技术逼近前沿水平,重新定义性能与成本的平衡点,为AI应用开发者带来重大利好。
科技前沿Google Gemini Antigravity周配额三倍提升,AI编程不再受限
Google Gemini团队再次将Antigravity周配额提升至三倍,继日配额提升后再次加码。本文解析此次配额调整对开发者的实际影响,以及在AI编程助手竞争格局中的战略意义。