关 闭

新闻中心

EEPW首页 > 安全与国防 > 业界动态 > 英国政府对Mythos AI的测试:帮业界分清网络安全威胁与炒作

英国政府对Mythos AI的测试:帮业界分清网络安全威胁与炒作

—— 人类黑客要失业了?新模型成为首个完成高难度多步骤渗透挑战的 AI 系统
作者: 时间:2026-04-15 来源: 收藏

英国人工智能安全研究所(SI)是少数获得 Preview 早期访问权的机构之一。上周, 宣布将 Preview 初始发布限制在 “核心行业合作伙伴小范围”,并称该模型在计算机安全任务上能力惊人。如今,旗下的 SI 发布了对这款模型网络攻击能力的初步评估,为 的说法提供了独立公开验证。

核心测试结论

SI 的测试显示:

  • 在单项网络安全任务中, 与其他最新前沿模型没有显著差异。

  • 但 Mythos 的真正突破:能把单项任务有效串联成多步骤连续攻击,实现对部分系统的完整渗透。

“The Last Ones” 终极测试被攻破

自 2023 年初以来,AISI 一直在用专门设计的 ** 夺旗赛(CTF)** 测试各类 AI 模型。当年 GPT-3.5 Turbo 连低级 “学徒级” 任务都难以完成。

  • 如今 Mythos Preview 能完成 ** 超过 85%** 的学徒级 CTF 任务。

  • GPT-5.4、Claude Opus 4.6、Codex 5.3 等模型成绩相近(准确率差距在 5%–10% 以内)。

  • 单看这项提升,并不足以解释 Anthropic 为何对 Mythos 采取严格限制发布。

真正拉开差距的测试:The Last Ones(TLO)

AISI 搭建的高难度仿真靶场,模拟对企业网络执行32 步数据窃取攻击。

  • 需跨多台主机、多个网段串联数十个步骤。

  • 人类熟练黑客预计需约 20 小时完成。

结果:

  • Mythos 是首个从头到尾完整通关 TLO 的 AI 模型。

  • 10 次尝试成功3 次。

  • 平均完成22/32步,远超 Claude 4.6 的16 步平均水平。

Mythos 仍有明显短板

AISI 指出,Mythos 在更难的 “冷却塔”(Cooling Tower) 测试中表现吃力。

  • 该测试模拟攻击电厂控制软件,共 7 步,难度更高。

  • 研究团队表示:若提升推理算力(突破测试设定的 1 亿 token 上限),表现还会继续提升。

安全警示:小型、防御薄弱系统需警惕

AISI 总结:

  • Mythos 至少具备自主攻击小型、防御弱、已入网的脆弱企业系统的能力。

  • 但测试环境缺少真实系统中的主动防御者与防护工具。

  • TLO 预设了特定漏洞,现实中不一定存在;且测试不会因被检测而判定失败。

因此,AISI 目前无法确认 Mythos 能否攻破防护良好的真实系统。

但警告:未来更强模型出现时,防御方必须同样用 AI 加固系统。


评论


相关推荐

技术专区

关闭