https://twitter.com/ClaudeDevs/status/2047371123185287223?s=20
Anthropic이 최근 Claude의 성능 저하 원인을 공식적으로 인정하고 기술적 사후 분석 보고서를 공개했습니다.
몇 주 전부터 개발자와 AI 고급 사용자들 사이에서 Claude가 이전보다 복잡한 추론을 제대로 수행하지 못하고, 환각 현상이 잦아지며, 토큰을 비효율적으로 소모한다는 불만이 GitHub, X, Reddit 등지에서 잇따랐습니다.
AMD AI 그룹의 시니어 디렉터 Stella Laurenzo는 6,852개의 Claude Code 세션과 23만 4천 건 이상의 툴 호출을 분석한 결과를 공개하며 추론 깊이가 눈에 띄게 하락했음을 지적했고, 서드파티 평가 기관 BridgeMind는 Claude Opus 4.6의 정확도가 83.3%에서 68.3%로 떨어지면서 순위가 2위에서 10위로 추락했다고 보고했습니다.
사용량 한도가 예상보다 빠르게 소진된다는 제보도 이어지면서 Anthropic이 수요 관리를 위해 의도적으로 성능을 제한하는 것 아니냐는 의혹도 제기됐습니다.
Anthropic은 모델 가중치 자체는 변경되지 않았다고 밝히면서, 원인은 모델을 둘러싼 "하네스", 즉 운영 지침과 시스템 설정의 변경에 있었다고 설명했습니다.
구체적으로는 세 가지 변경이 문제였습니다.
- 첫째, 3월 4일 UI 응답 지연을 줄이기 위해 Claude Code의 기본 추론 노력 수준을 '높음'에서 '중간'으로 낮췄는데, 이것이 복잡한 작업에서의 성능 저하로 이어졌습니다.
- 둘째, 3월 26일 배포된 캐싱 최적화에 버그가 포함되어 있었습니다.
유휴 세션의 사고 기록을 한 번만 삭제해야 했지만, 이후 매 턴마다 반복 삭제되면서 모델이 단기 기억을 잃고 반복적이거나 부정확한 답변을 내놓는 현상이 발생했습니다.
- 셋째, 4월 16일 Opus 4.7의 장황한 응답을 줄이고자 툴 호출 사이 텍스트는 25단어, 최종 응답은 100단어 이하로 제한하는 지침을 시스템 프롬프트에 추가했는데, 이로 인해 코딩 품질 평가에서 3% 하락이 나타났습니다.
이번 문제는 Claude Code CLI뿐 아니라 Claude Agent SDK와 Claude Cowork에도 영향을 미쳤으며, Claude API는 영향을 받지 않았습니다.
Anthropic은 추론 노력 설정과 장황함 제한 지침을 원래대로 되돌리고 캐싱 버그를 버전 v2.1.116에서 수정했으며, 피해 보상 차원에서 4월 23일자로 전체 구독자의 사용량 한도를 초기화했습니다.
재발 방지를 위해 Anthropic은 더 많은 내부 직원이 퍼블릭 빌드와 동일한 버전을 직접 사용하도록 하고, 시스템 프롬프트 변경 시마다 광범위한 모델별 평가를 의무화하며, 변경 이력을 쉽게 감사할 수 있는 내부 툴링을 도입할 계획입니다.
또한 X의 공식 계정 @ClaudeDevs와 GitHub 스레드를 통해 향후 제품 결정의 배경을 개발자 커뮤니티와 투명하게 공유하겠다고 밝혔습니다.