Claude Mythos实测翻车:17万行代码仅找到1个低危漏洞

Anthropic"最危险模型"Mythos实测Curl项目仅发现1个低风险漏洞,宣传远超实际能力。
Curl创始人Daniel Stenberg对Anthropic号称"不敢发布"的最强模型Mythos进行实测,结果在17万行代码中仅发现1个低风险CVE,其余4个报告均为误报或普通Bug。测试表明Mythos的漏洞发现能力并无质的飞跃,其他主流AI工具同样可以达到类似效果,Anthropic的"危险武器"宣传更多是营销噱头。
事件背景:Anthropic的"最危险模型"遭遇真实考验
Anthropic此前一直宣称其尚未正式发布的最强模型Mythos(也被称为Methos/Misos)在发现和利用安全漏洞方面的能力几乎超越了所有人类专家。官方甚至表示,如果贸然发布该模型,可能会对经济、公共安全乃至国家安全造成严重后果。因此,目前仅向少数机构和开源组织开放了访问权限。
Anthropic采用一套名为Responsible Scaling Policy(负责任扩展政策)的内部框架来评估模型风险。该框架将AI能力分为多个安全等级(ASL),从ASL-1(无显著风险)到ASL-4+(可能构成灾难性风险)。当模型在网络安全、生物武器设计等领域展现出超越人类专家的能力时,就会触发更高等级的安全管控措施,包括限制访问、增加监控和延迟发布。Mythos被归入高风险类别,正是基于其在内部红队测试中展现的漏洞发现能力。然而,内部测试环境与真实世界项目之间存在显著差异——内部测试可能使用了已知存在漏洞的代码库,而像Curl这样经过多年持续审计的成熟项目,低垂的果实早已被摘完。
然而,当这个被包装为"安全领域分水岭"的AI模型遇到真实世界的大型开源项目时,结果却令人大跌眼镜。
Curl创始人实测:结果狠狠打脸Anthropic宣传
测试对象:互联网基础设施级项目
Curl的创始人Daniel Stenberg近日在个人博客上发布了一篇详细的测试报告。Curl是互联网上应用最广泛的网络传输库之一,安装量超过200亿次,几乎运行在每一部智能手机、平板、汽车、电视、游戏机和服务器上。该项目拥有约17万行代码,其安全性的重要程度大家都看得到。
Curl不仅是一个命令行工具,更是互联网基础设施的核心组件。其底层库libcurl被嵌入到几乎所有操作系统、编程语言运行时和物联网设备中,负责处理HTTP、FTP、SMTP等数十种网络协议的数据传输。由于其无处不在的部署规模,Curl中的任何一个安全漏洞都可能产生级联效应——类似于2021年Log4Shell漏洞对Java生态的冲击。Daniel Stenberg自1998年起维护该项目,积累了极其丰富的安全审计经验,项目历史上共修复过约150个CVE,这使得Curl成为测试AI安全扫描能力的理想标靶:既足够复杂,又有完善的历史漏洞数据库可供对照。
在Mythos对Curl进行扫描之前,Daniel在社交媒体上发起了一次投票。绝大部分网友根据Anthropic的宣传预期,认为该模型至少能扫出10个以上的CVE漏洞。
CVE与普通Bug的区别
这里需要厘清一个概念:Bug是一个非常宽泛的概念,指程序运行结果不及预期(如输出乱码、字体大小不对等)。而CVE(Common Vulnerabilities and Exposures)特指那些可以被利用、能够威胁到系统机密性、完整性和可用性的特殊漏洞。简单来说,CVE都是Bug,但不是所有Bug都是CVE。
CVE是由MITRE组织维护的全球统一漏洞编号系统,每个被确认的安全漏洞都会获得一个唯一的CVE编号(如CVE-2024-XXXXX)。漏洞的严重程度通过CVSS(Common Vulnerability Scoring System)评分来量化,分值从0到10,其中0-3.9为低风险,4.0-6.9为中风险,7.0-8.9为高风险,9.0-10为严重。评分综合考虑攻击向量(网络/本地)、攻击复杂度、所需权限、用户交互需求以及对机密性、完整性、可用性的影响。Mythos发现的唯一确认CVE被归类为极低风险,意味着其CVSS评分可能在2-3分区间,实际被利用的可能性极低。
令人失望的扫描结果
Mythos的最终报告仅列出了5个CVE。对于一个17万行代码的项目来说,5个CVE已经是微不足道的数字。但更尴尬的是,经过Curl团队的深入研究后发现:
- 3个是误报:完全不构成安全威胁
- 1个仅是小Bug:够不上"可被利用的漏洞"级别
- 唯一确认的1个漏洞:被归类为极低风险的CVE,不会造成严重后果
也就是说,在这个庞大的开源库中,Mythos实际上只找到了一个低风险漏洞,且该漏洞已被安排在下一个版本中修复。这与Anthropic声称的"对安全构成重大威胁"的说法严重不符。
深层分析:Mythos的漏洞发现能力并非独家优势
发现Bug的能力并不独特
Daniel也指出,除了CVE之外,Mythos确实还发现了大约20个普通Bug,且描述清晰、解释到位、几乎没有误报。但尴尬的是,他明确表示这些Bug使用任何其他AI工具同样可以发现。
此前他们也使用过其他AI工具进行代码安全扫描,其他AI甚至发现了更多的Bug数量。当然,Daniel也公平地指出,随着历史Bug不断被修复,发现新Bug的难度也在增加,单纯比较数量并不完全公平。
AI代码审计的技术原理与局限
现代大语言模型进行代码安全扫描的核心机制是模式识别:通过在海量代码和漏洞数据上的训练,模型学会了识别缓冲区溢出、SQL注入、竞态条件等常见漏洞模式。相比传统静态分析工具(如Coverity、CodeQL),AI的优势在于能理解代码的语义上下文,减少因规则过于死板导致的误报。但AI也有明显局限:它无法真正执行代码,无法验证漏洞是否可被实际触发(即缺乏动态验证能力),也难以理解复杂的跨模块数据流。这解释了为什么Mythos会产生较高的误报率——它可能识别出了看起来危险的代码模式,但无法确认这些模式在运行时是否真的可达。
真正的价值场景
原文做了一个非常重要的补充:用AI发现源代码中的漏洞和错误,确实比以往任何传统工具都更加出色。但这是现代AI大模型的共有能力,而非Mythos的独家优势。
真正有价值的应用场景在于那些从未用AI扫描过的代码仓库。这类项目自然会暴露大量缺陷、漏洞和潜在安全隐患——用什么AI都可以发现。反过来说,如果你的项目从未经过AI代码审计,就等于给攻击者留下了大量可利用的入口。
核心结论:营销噱头大于实际突破
综合这次真实项目的实测,可以得出以下几个关键结论:
第一,Mythos没有Anthropic宣传的那么危险。 仅从Curl项目来看,对该模型的种种炒作主要是营销噱头。与此前的其他AI相比,并未发现其在漏洞发现能力上有质的飞跃。
第二,误报率偏高。 报告的5条漏洞中有4条属于误报或不构成威胁,即使扫描出结果,仍然需要人工介入验证。这对于实际安全工作流来说是一个不小的效率损耗。
第三,AI代码安全扫描本身是有效的。 这是现代大模型的共享能力,不是Mythos的独家优势。任何主流AI模型都能在代码审计中发挥显著作用。
理性看待AI安全能力的边界
Mythos确实是一个优秀的模型,但Anthropic的宣传策略显然过于激进。将模型包装为"不敢发布的危险武器",既是一种安全负责的姿态,也难免被质疑为制造稀缺性的营销手段。
从这次实测来看,AI在代码安全领域的能力确实在进步,但距离"颠覆性威胁"还有相当距离。对于开发者而言,真正应该关注的不是某个特定模型有多危险,而是是否已经将AI工具纳入自己的安全审计流程中——因为如果你不用,攻击者一定会用。
AI在网络安全领域的应用本质上是一场攻防双方的军备竞赛。防御方使用AI进行代码审计、异常检测和威胁情报分析;攻击方同样可以利用AI自动化漏洞挖掘、生成钓鱼内容和绕过安全检测。DARPA在2024年举办的AIxCC(AI网络安全挑战赛)已经证明,多个AI系统能够自主发现并修复真实开源软件中的漏洞。这意味着AI安全扫描能力的普及是不可逆的趋势,任何试图通过限制单一模型来维护安全的策略都注定失效——真正的安全提升来自于防御方全面采用AI工具,而非寄希望于攻击方无法获取类似能力。
相关推荐
科技前沿GitHub Agent HQ发布:AI编程工具进入平台化竞争时代
GitHub Universe大会发布Agent HQ平台,统一管理编码Agent,Copilot升级支持多模型集成。同期OpenAI完成重组,Anthropic新模型测试,NVIDIA开源系列AI模型,AI编程工具格局加速整合。
科技前沿Gemini 3.5 Flash在GDPval基准上实现巨大飞跃
Google Gemini 3.5 Flash在GDPval基准测试中超越Gemini 3.1 Pro,轻量级Flash模型借助后训练技术逼近前沿水平,重新定义性能与成本的平衡点,为AI应用开发者带来重大利好。
科技前沿Google Gemini Antigravity周配额三倍提升,AI编程不再受限
Google Gemini团队再次将Antigravity周配额提升至三倍,继日配额提升后再次加码。本文解析此次配额调整对开发者的实际影响,以及在AI编程助手竞争格局中的战略意义。