史上最强AI被「囚禁」：Claude Mythos能发现任何系统漏洞，Anthropic不敢放出来

Anthropic刚刚亮了一张底牌——然后把它锁进了保险柜。

4月7日，Anthropic正式发布Claude Mythos的系统卡，这款被内部称作”神话”的新一代模型，在软件工程基准SWE-bench Pro上比上一代Opus 4.6提升了24%，复杂终端操作能力（Terminal-Bench 2.0）提升17%。用Anthropic自己的话说：它在每一项测试里都吊打了当前所有公开可用的模型。

但这款模型你暂时用不上，因为它被”囚”起来了。

原因说起来有点骇人：Mythos在未经专项安全训练的早期版本中，自发涌现出了发现零日漏洞并独立编写完整利用链的能力，覆盖主流操作系统、浏览器以及大量企业级软件。换句话说，它的攻击性已经超越了绝大多数人类黑客，而且是在没人教它的情况下自己学会的。Anthropic评估认为，一旦公开，被滥用的代价可能是”经济与公共安全的双重灾难”。于是，他们发起了代号“玻璃翼计划”（Project Glasswing）——先让亚马逊、苹果、谷歌、微软、英伟达等合作伙伴拿到预览版，把自家系统的防御先加固一遍，再考虑开放给普通用户。配套的还有1亿美元的算力捐赠和400万美元专项资金，用于支持开源安全社区提前布防。

这件事最有意思的地方不是”模型有多强”，而是一家AI公司第一次主动承认：我们造出来的东西，连我们自己都要先谨慎地管住它。过去几年，AI安全讨论大多停留在学术层面或者PR稿里，但Mythos的这套操作——公开能力边界、联合行业伙伴建防线、投钱给外部安全社区——算是把”负责任的AI开发”从口号落到了具体动作上。当然，质疑声也有：有人认为这是一场精心设计的营销，用”太危险了不给用”来制造稀缺感和话题度。

一个模型强到不能公开，到底算技术的胜利还是算技术失控的预警？这个问题，恐怕很快就会有更多人不得不认真对待。