Anthropic 修改安全政策，允许人工智能开发，尽管风险未得到缓解

Gwenda

2026-02-26

这家人工智能公司曾承诺，如果其模型变得过于危险，就会暂停开发，但现在已经重写了其核心安全承诺，用有条件的指导方针取代了硬性限制，即使风险仍未缓解，也允许继续前进。

人择更新了负责任的扩展政策本周，删除了承诺该公司在没有经过验证的安全措施的情况下停止训练或部署可能造成灾难性伤害的人工智能系统的条款。最初的 2023 年框架指出 Anthropic“不会训练或部署能够造成灾难性伤害的模型，除非我们实施了安全措施，将风险控制在可接受的水平以下。”

根据修订后的政策，Anthropic 只有在保持稳定的情况下才会考虑推迟开发。“显着领先”超越竞争对手并判断灾难性风险重大。如果竞争对手以较弱的保障措施前进，该公司表示“在这种情况下不一定会延迟人工智能的开发和部署。”新框架用《时代》杂志描述的内容取代了分类暂停触发器“更加灵活、自由裁量的语言。”

卡普兰说：“我们认为停止训练人工智能模型对我们来说实际上并没有什么帮助。”

首席科学官贾里德·卡普兰 (Jared Kaplan) 告诉《时代》杂志，如果竞争对手继续前进，公司认为单方面的暂停不会对任何人有帮助。“随着人工智能的快速发展，我们并没有真正感觉到，如果竞争对手正在领先，我们做出单方面承诺是没有意义的。”

随着 Anthropic 同时面临来自军事需求和投资者预期的压力，政策发生了转变。据报道，国防部长皮特·赫格斯给人类直到周五放弃某些军事用途的护栏，或面临可能援引《国防生产法》，这将迫使该公司根据政府需求定制其人工智能模型。

人类在军事应用方面保持了两条主要红线：不对美国人进行大规模监视，以及不开发完全自主的武器。据报道，五角大楼去年 12 月询问克劳德是否可以用于为导弹防御系统自动发射导弹。

财务压力也影响了这一决定。人择凸起300亿美元G轮融资本月早些时候在3800亿美元根据公司报表，年化收入以每年 10 倍的速度增长。竞争对手 OpenAI 目前估值超过8500亿美元.

最初的负责任的扩展政策建立了人工安全级别（ASL）和相应的保障措施，创建了自动绊线，如果能力超过安全措施，就会停止进展。 3.0 版引入了每三到六个月发布一次的前沿安全路线图和风险报告。

METR 的独立评论家 Chris Painter 警告说，社会对灾难性风险仍未做好准备由先进的人工智能系统构成。安全研究人员表示，从规定性规则到基于原则的指导的语言转变有效地消除了曾经被认为是行业领先政策的强制执行力。

Anthropic 于 2025 年 5 月为相关模型激活了 ASL-3 防护措施，并实施了与这些防护措施类似的生物武器相关分类器。