Anthropic 周四承认,三个单独的错误导致了克劳德·科德 (Claude Code) 过去两个月质量下降的情况被广泛报道,终于证实了用户一直以来的说法。公司的官方事后分析追踪到 Claude Code 推理工作默认值的变化、在会话中删除 Claude 内存的缓存错误以及损害编码质量的系统提示编辑导致了性能下降。截至 4 月 20 日 (v2.1.116),这三个问题均已修复。 API 从未受到影响。
“我们从不故意降低我们的模型,”Anthropic 写道。 “我们能够立即确认我们的 API 和推理层没有受到影响。”第一期日期为 3 月 4 日。在一些用户在 Opus 4.6 上遇到长时间延迟且 UI 看起来冻结后,Anthropic 将 Claude Code 的默认推理工作从高降至中。这一修复产生了一个不同的问题:克劳德感觉自己不太聪明。用户可以通过手动切换回来/effort,但大多数人不知道或不关心。
Anthropic 在 4 月 7 日逆转了这一变化。3 月 26 日的缓存错误使事情变得更加复杂。 Anthropic 试图清除闲置一个多小时的会话中的旧思维,以降低恢复成本。
它不是清除一次,而是在剩下的会话中每回合都清除。随着对话的进行,克劳德忘记了为什么要进行编辑和工具调用,从而导致用户广泛报告的健忘和重复。
“这表现为人们报告的健忘、重复和奇怪的工具选择,”Anthropic 说。同样的错误导致使用限制的耗尽速度比预期更快,因为每个请求都会导致缓存未命中。西蒙·威利森 (Simon Willison) 指出,他经常让会话闲置数小时或数天:“我估计我在这些‘陈旧’会话中花费的时间比我最近开始的会话更多。”当 Anthropic 添加长度限制指令以减少 Opus 4.7 的冗长时,第三个问题就出现了:“工具调用之间的文本保持≤25 个单词。”内部测试显示没有回归,但后来更广泛的评估显示 Opus 4.6 和 4.7 的编码质量下降了 3%。
结合两个导致繁殖困难的不相关实验,尽管用户的投诉早在三月初,Anthropic 仍花了数周时间才确定根本原因。
“作为本次调查的一部分,我们使用 Opus 4.7 对违规拉取请求进行了代码审查回溯测试,”Anthropic 指出。 “当提供收集完整上下文所需的代码存储库时,Opus 4.7 发现了该错误。”
Anthropic 的 Claude Code 和 Cowork 产品主管 Cat Wu 本周早些时候承认,用户对人工智能的发布速度感到不知所措,并表示她想要能够教育人们而不是给人们带来压力的工具。
自 4 月 23 日起,Anthropic 正在重置所有订阅者的使用限制。
