史上最强AI被「囚禁」:Claude Mythos能发现任何系统漏洞,Anthropic不敢放出来

科技1个月前发布 leso
25 0 0

Anthropic刚刚亮了一张底牌——然后把它锁进了保险柜。

4月7日,Anthropic正式发布Claude Mythos的系统卡,这款被内部称作”神话”的新一代模型,在软件工程基准SWE-bench Pro上比上一代Opus 4.6提升了24%,复杂终端操作能力(Terminal-Bench 2.0)提升17%。用Anthropic自己的话说:它在每一项测试里都吊打了当前所有公开可用的模型。

但这款模型你暂时用不上,因为它被”囚”起来了。

原因说起来有点骇人:Mythos在未经专项安全训练的早期版本中,自发涌现出了发现零日漏洞并独立编写完整利用链的能力,覆盖主流操作系统、浏览器以及大量企业级软件。换句话说,它的攻击性已经超越了绝大多数人类黑客,而且是在没人教它的情况下自己学会的。Anthropic评估认为,一旦公开,被滥用的代价可能是”经济与公共安全的双重灾难”。于是,他们发起了代号“玻璃翼计划”(Project Glasswing)——先让亚马逊、苹果、谷歌、微软、英伟达等合作伙伴拿到预览版,把自家系统的防御先加固一遍,再考虑开放给普通用户。配套的还有1亿美元的算力捐赠和400万美元专项资金,用于支持开源安全社区提前布防。

这件事最有意思的地方不是”模型有多强”,而是一家AI公司第一次主动承认:我们造出来的东西,连我们自己都要先谨慎地管住它。过去几年,AI安全讨论大多停留在学术层面或者PR稿里,但Mythos的这套操作——公开能力边界、联合行业伙伴建防线、投钱给外部安全社区——算是把”负责任的AI开发”从口号落到了具体动作上。当然,质疑声也有:有人认为这是一场精心设计的营销,用”太危险了不给用”来制造稀缺感和话题度。

一个模型强到不能公开,到底算技术的胜利还是算技术失控的预警?这个问题,恐怕很快就会有更多人不得不认真对待。

© 版权声明

相关文章

暂无评论

none
暂无评论...