Anthropic 公开 Claude Mythos Preview 安全能力,AI 已开始逼近真实漏洞研究现场
Anthropic 在 2026 年 4 月 7 日公开了 Claude Mythos Preview 的网络安全能力评估,同时放出了一份更技术化的说明文档。这次真正引人注意的,是它在漏洞挖掘、漏洞验证和 exploit 构造上的进展已经明显跨过了一个门槛。

按照 Anthropic 的披露,Mythos Preview 能在不少场景下把漏洞进一步转成可利用链条。公开材料里提到,它在测试中已经能够针对主流操作系统和主流浏览器发现并利用 zero-day 漏洞,甚至可以串联多处漏洞形成更复杂的攻击路径。Anthropic 举的例子里,既包括一个后来已修补、存在了 27 年的 OpenBSD 漏洞,也包括 FFmpeg 中一个存在 16 年的漏洞,以及浏览器、内核、文件系统服务等高价值目标上的 exploit 尝试。
真实环境评估
这次技术文档里另一个值得注意的点,是 Anthropic 把大量评估放到了真实世界的软件环境里。文中提到,他们会把 agent 分配到不同文件、不同入口点并行扫描,再让另一个 agent 对发现结果做复核,以减少重复发现和低质量误报。对外披露的数据也说明,模型给出的漏洞严重性判断已经有了相当高的一致性:在 198 份人工复核报告里,89% 与人工专家的严重性判断完全一致,98% 至少在一个等级范围内。
能力扩散
Anthropic 明确提到,即便没有正式安全背景的工程师,在模型辅助下也可能完成复杂漏洞发现和 exploit 开发流程。安全研究里那些原本需要多年积累的部分门槛,正在被新的工具层重新改写。
不过 Anthropic 这次的态度也相当谨慎。由于大部分发现的漏洞还没有完成修补,他们没有公开太多 exploit 细节,也表示 Mythos Preview 不会直接面向公众开放。与此同时,Anthropic 还启动了一个名为 Project Glasswing 的项目,目标是优先把这种能力用在关键软件和基础设施的防守上。
]过去大家讨论 AI 安全,很多时候还停留在"模型会不会写恶意代码""会不会给出危险建议"这种层面。现在问题已经开始变成,当模型真的能在真实系统里高效找到漏洞、验证漏洞、构造利用链时,防守方的工作方式是否也要同步变化。Anthropic 给出的判断很明确:长期看,模型能力会更多帮助防守;但在过渡期里,安全行业会先面对一段并不轻松的调整阶段。
Mythos Preview 或许意味着语言模型对网络安全的影响,已经开始从"可能会发生"走向"正在发生"。