Anthropic 确认三个错误导致 Claude 代码质量在两个月内下降

Anthropic 周四承认，三个单独的错误导致了克劳德·科德 (Claude Code) 过去两个月质量下降的情况被广泛报道，终于证实了用户一直以来的说法。公司的官方事后分析追踪到 Claude Code 推理工作默认值的变化、在会话中删除 Claude 内存的缓存错误以及损害编码质量的系统提示编辑导致了性能下降。截至 4 月 20 日 (v2.1.116)，这三个问题均已修复。 API 从未受到影响。

“我们从不故意降低我们的模型，”Anthropic 写道。 “我们能够立即确认我们的 API 和推理层没有受到影响。”第一期日期为 3 月 4 日。在一些用户在 Opus 4.6 上遇到长时间延迟且 UI 看起来冻结后，Anthropic 将 Claude Code 的默认推理工作从高降至中。这一修复产生了一个不同的问题：克劳德感觉自己不太聪明。用户可以通过手动切换回来/effort，但大多数人不知道或不关心。

Anthropic 在 4 月 7 日逆转了这一变化。3 月 26 日的缓存错误使事情变得更加复杂。 Anthropic 试图清除闲置一个多小时的会话中的旧思维，以降低恢复成本。

它不是清除一次，而是在剩下的会话中每回合都清除。随着对话的进行，克劳德忘记了为什么要进行编辑和工具调用，从而导致用户广泛报告的健忘和重复。

“这表现为人们报告的健忘、重复和奇怪的工具选择，”Anthropic 说。同样的错误导致使用限制的耗尽速度比预期更快，因为每个请求都会导致缓存未命中。西蒙·威利森 (Simon Willison) 指出，他经常让会话闲置数小时或数天：“我估计我在这些‘陈旧’会话中花费的时间比我最近开始的会话更多。”当 Anthropic 添加长度限制指令以减少 Opus 4.7 的冗长时，第三个问题就出现了：“工具调用之间的文本保持≤25 个单词。”内部测试显示没有回归，但后来更广泛的评估显示 Opus 4.6 和 4.7 的编码质量下降了 3%。

结合两个导致繁殖困难的不相关实验，尽管用户的投诉早在三月初，Anthropic 仍花了数周时间才确定根本原因。

“作为本次调查的一部分，我们使用 Opus 4.7 对违规拉取请求进行了代码审查回溯测试，”Anthropic 指出。 “当提供收集完整上下文所需的代码存储库时，Opus 4.7 发现了该错误。”

Anthropic 的 Claude Code 和 Cowork 产品主管 Cat Wu 本周早些时候承认，用户对人工智能的发布速度感到不知所措，并表示她想要能够教育人们而不是给人们带来压力的工具。

自 4 月 23 日起，Anthropic 正在重置所有订阅者的使用限制。