《克劳德寓言 5》默默限制人工智能研究能力后,人类学面临强烈反对

Gwenda

人择发布克劳德寓言5周二向公众展示了其首款 Mythos 级模型,该模型被认为足够安全,适合一般使用。几个小时后,人工智能社区开始公开反抗。

据《财富》杂志的莎伦·戈德曼报道,在模型的 319 页系统卡中隐藏着一个 Anthropic 没有强调的细节:当《神鬼寓言 5》检测到与尖端人工智能开发工作相关的请求时,它会悄悄降低响应级别,包括构建用于训练大型模型的基础设施。该模型仍然会做出响应,但在不告诉用户的情况下使用“干预措施来限制克劳德的有效性”。

这与《神鬼寓言5》的其他限制不同。当该模型阻止网络安全或生物学查询时,它会明显地将用户重定向到功能较弱的 Claude Opus 4.8,并发出通知。

AI研究的限制是无形的。系统卡明确指出:“对用户不可见”。

Anthropic 估计该限制影响了大约 0.03% 的流量,并为这种方法进行了辩护,称“通过我们的保障措施强制实施这一限制,可以避免加速最愿意违反这些条款的行为者的行为。”人工智能研究界对此有不同的看法。最近领导 AI2 工作的开放模型研究员内森·兰伯特 (Nathan Lambert) 称这种做法“令人震惊”。

兰伯特写道:“让我能够接触到以桌下时尚方式制作的工作地毯的尖端模型,这真是令人震惊。” “对我来说,这显然将人择学描绘成反科学,因此是反进步和反安全的。”

美国创新基金会高级研究员、前白宫科技政策顾问迪恩·鲍尔(Dean Ball)为此创造了一个术语:“秘密破坏”。他写道,这项政策“大规模而深刻地提升了这样一种观点的地位,即人工智能安全一直被炒作,以证明实验室的垄断行为是合理的。”

非营利研究组织 Fast AI 的负责人 Jeremy Howard 指出了这种不对称性。 Anthropic 为自己的研究人员保留了完整的《神鬼寓言 5》功能,同时限制了外部研究人员。

“他们说他们会破坏其他尝试的人,”霍华德写道。 “这意味着人工智能前沿的进步,权力失衡的加剧。”

就连 Anthropic 的前员工也加入了批评之列。 Behnam Neyshabur 曾共同领导 Anthropic 开发人工智能科学家的工作,他在 X 上发帖称:“致力于人工智能治疗癌症?

抱歉,我帮不了你。致力于研究人工智能治疗阿尔茨海默病?

抱歉,说到人工智能部分,我变得有点愚蠢了。”

并不是每个人都堆满了。沃顿商学院副教授伊森·莫里克 (Ethan Mollick) 写道,《神鬼寓言 5》“基本上比我使用过的所有其他公共模型都表现出色”。上个月加入 Anthropic 的安德烈·卡帕蒂 (Andrej Karpathy) 称其为“超级令人兴奋的版本”和“值得重大版本突破的一步变化”,尽管他指出安全措施“配置得有点太容易触发”。

对于 Anthropic 来说,这场争议正处于一个尴尬的时刻。该公司一周多前秘密提交了首次公开募股文件。

Anthropic 产品管理、研究和实验室主管 Dianne Na Penn 告诉《财富》杂志,该公司正在“提高模型智能的标准”,同时“以安全的方式推动前沿发展”。她承认一些善意的请求最初会被阻止,并表示 Anthropic 正在致力于改进启动后的保障措施。

《神鬼寓言 5》和受限制的《神话 5》的定价为每百万输入代币 10 美元,每百万输出代币 50 美元,可通过 Claude API 立即获取。早期数据显示,95% 的会话都在《神鬼寓言 5》的全部功能上运行,而不会触发回退。

经过 1,000 多个小时的独立红队测试,没有发现通用的越狱方法。但人工智能研究查询的无形降级为安全与控制的争论开辟了新战线。问题不再只是人择能否遏制神话级风险。

问题在于该公司对“安全”的定义是否也意味着与竞争对手和研究人员保持距离。