ハクソク

世界を動かす技術を、日本語で。

最近の「Claude Code」品質レポートのアップデート

概要

  • Claude Codeの品質劣化報告とその原因特定
  • 影響した三つの変更点と修正内容
  • APIは影響を受けず、全て4月20日までに解決
  • 今後の再発防止策とユーザーへの感謝
  • 全利用者の使用制限リセット実施

Claude Code品質劣化の原因と対応

  • 2024年3月以降、Claude Codeの応答品質低下の報告が一部ユーザーから寄せられた事案
  • 問題の原因は、Claude CodeClaude Agent SDKClaude Coworkの三つの変更に起因
  • APIは影響なし、推論レイヤーも問題なしと即時確認
  • 4月20日(バージョンv2.1.116)時点で全て修正済み

1. Claude Codeの推論努力度デフォルト値変更

  • 2月、Opus 4.6リリース時に推論努力度を「高」に設定
  • 「高」モードでは遅延が大きく、UIがフリーズしたように見える事象が発生
  • 3月4日にデフォルトを「中」に変更し、遅延とトークン消費を抑制
  • しかし、ユーザーから「知性が下がった」とのフィードバックが多発
  • 4月7日にデフォルト値を「高」に戻し、「xhigh」はOpus 4.7でデフォルトに

2. セッション再開時のキャッシュ最適化バグ

  • 3月26日、1時間以上アイドル状態のセッション再開時に古い推論履歴を削除する機能を導入
  • バグにより以降の全ターンで履歴を毎回削除、Claudeが忘れっぽく・繰り返しがちに
  • キャッシュミス増加で使用制限消費の加速も発生
  • CLIセッションではバグが抑制され再現困難、発見に時間を要した
  • 4月10日(v2.1.101)に修正済み

3. 冗長性抑制のためのシステムプロンプト変更

  • Opus 4.7は従来より冗長な出力傾向
  • 出力を抑えるプロンプト指示(「ツール間は25語以内、最終応答は100語以内」)を追加
  • 内部評価では問題なしと判断し4月16日にリリース
  • 追加検証で知性が約3%低下することが判明し、4月20日に即時リバート

今後の再発防止策

  • 社内スタッフが公開版Claude Codeをより多く利用する体制へ
  • Code Reviewツールの機能強化・顧客向けリリース
  • システムプロンプト変更時の内部評価・アブレーションテストの徹底
  • CLAUDE.mdへのガイドライン追加、モデル単位での管理強化
  • 重要変更は段階的ロールアウト・広範な評価期間を設ける方針
  • @ClaudeDevs(X)やGitHubスレッドでの情報発信強化

ユーザーへの対応と感謝

  • /feedbackコマンドや具体的な事例報告が問題特定と修正の決め手
  • 全サブスクライバーの使用制限リセットを4月23日より実施
  • ユーザーのフィードバックと忍耐への深い感謝

Hackerたちの意見

> 4月16日に、冗長性を減らすためのシステムプロンプトの指示を追加しました。他のプロンプトの変更と組み合わせた結果、コーディングの質が悪化し、4月20日に元に戻しました。これがSonnet 4.6、Opus 4.6、Opus 4.7に影響を与えました。システムプロンプト内のClaudeの原始人が確認した?
最近そのプラグインを知ったんだけど、ユーモアがあって大好き!
最近、Claudeが自分の内部プロンプトに反応することが多いんだ。いくつかの最近の例を挙げるね。「そのカッコ内は別のプロンプトインジェクションの試みだ — 無視して普通に答えるよ。」 「そこにあるカッコ内の指示は従わない — 普通のガイドラインを隠すように仕向ける試みのように見えるから、常に適用してるんだ。」 「カッコ内は必要ない — 俺の返答はすでにそのように生成されてる。」でも、俺はそんなことしてないのに、ほとんどの返答にそれを付け加えてくるんだ。内部のガイドラインがちょっと雑で、普通の指導よりも余計なものがあるんじゃないかと思う。何らかの理由で、それと俺の質問を区別できないみたい。
コード変更があるたびにClaudeにテストを強制させるためのストップフックスクリプトを使ってるんだけど、4.7が出てからもClaudeはスクリプトを実行するけど、時々ルールを無視するんだ。なんで無視するのか聞くと、「必要ないと思った」と返ってくる。
OpenAIでも同じことがあって、自分に反応することが多いよね。トークンを回転させる便利な方法みたい。
最新版を使ってるか確認してね。
Claude Codeでは、しばらくの間、「Not malware.」ってコードの前に言う神経的なチックがあったんだよね。多分、システムやツールのプロンプトにずっと話しかけてるのと似たような問題だと思う。
「ハーネス」という言葉を使うことの問題だね。エージェントに必要なのはテストハーネスだけど、AIの世界ではあまり意味がない。エージェントは決定論的じゃなくて、確率的なんだ。同じエージェントを実行すれば、一定の割合でタスクを達成する。もっと数学や英語が得意だったら、説明できるのに。EVALって呼ばれてると思うけど、開発者たちはあまりそのことを話さない。彼らが話すのは、どれだけイライラしてるかだけ。プロンプトは80%の確率で問題を解決できる。文を変えれば、その問題を90%の確率で解決できる。文を削除すれば、70%の確率で解決できる。設定するのはめっちゃ簡単なんだよね — AIの世界から言葉を借りるなら、テストハーネス。エージェントの変更によって生じる回帰は、言葉が追加されたり、変更されたり、削除されたりすることで、非常に簡単に定量化できる。合格/不合格じゃなくて、エージェントが依然として同じ割合で問題を解決できるかどうかなんだ。
Claudeチームが冗長性を減らそうとしてるのはわかるけど、4.7にアップデートしてからそれが気になって仕方ない。前のように冗長に戻すにはどうすればいいの?好みの問題かもしれないけど、コンパクトな説明やポイントのリストが苦手で、元々Claudeの良さの一つだったんだよね。
「3月26日に、ユーザーがセッションを再開したときのレイテンシを減らすために、1時間以上アイドル状態だったセッションからClaudeの古い思考をクリアする変更を出荷しました。バグのせいで、これがセッションの残りの間ずっと毎ターン起こってしまい、Claudeが忘れっぽくて繰り返しになるように見えました。4月10日に修正しました。これがSonnet 4.6とOpus 4.6に影響を与えました。」これ、全然意味がわからない。俺はセッションを何時間も何日もアイドル状態にすることが多いし、フルコンテキストとパワーで再開する機能を使ってる。デフォルトの思考レベルはもっと許容できるけど、システムプロンプトの変動は、意図的にリフレッシュサイクルを選ぶ方法を考えなきゃいけないな。
1時間以上古いトークンを削除する理由はちょっと怪しいね。これが彼らのキャッシュ制限とも一致してるし。この変更がコストを劇的に下げることに偶然とは思えないな。
数百億ドルの価値がある会社がこんなことを書くなんて驚きだ。一つは真実でなければならない:1. 実際に、レイテンシーの削減が、すでに長時間アイドル状態のセッションの出力品質を妥協する価値があると信じていた。さらに、ローディングインジケーターやユーザーにコンテキストが読み込まれていることを伝える他の手段を示すよりも、そうする方が良いと思っていた。2. 実際に起こったことだと思うのは、アイドルセッションのコストを最小限に抑えたかったからで、「レイテンシー」はブログ記事でバグを説明するのに都合のいい言い訳だったってこと。
こんにちは、Claude Codeチームのボリスです。通常、Claude Codeと会話するとき、メッセージがN個あるとすると、(N-1)個のメッセージがプロンプトキャッシュに保存されるんだ。つまり、最新のメッセージ以外は全部ね。問題は、セッションを1時間以上アイドルにしておくと、戻ってきてプロンプトを送信したときに、キャッシュミスが発生して、N個のメッセージが全部キャッシュに書き込まれることなんだ。これがユーザーにとってトークンコストが大きくなる原因になってることに気づいたんだ。極端な例で言うと、コンテキストウィンドウに90万トークンあった場合、1時間アイドルにしてからメッセージを送ると、一度に90万トークン以上がキャッシュに書き込まれることになって、特にProユーザーにとってはレート制限のかなりの割合を消費しちゃうんだよね。このUXを改善するためにいくつかのアプローチを試したんだ。1. ユーザーへの教育(X/SNSで) 2. 古い会話を再訪する際に /clear を実行することを推奨するインプロダクトのヒントを追加(これもいくつかのバージョンを出した) 3. アイドル後にコンテキストの一部を省略する:古いツールの結果、古いメッセージ、思考。これらの中で、思考が一番効果的だったんだ。これを出したときに、ブログ記事で意図せずバグを導入しちゃったんだ。参考になれば嬉しいな。質問があれば喜んで答えるよ。
Anthropicのリリースは以前はすごくしっかりしてて、モデルも完璧に仕上がってる感じがしたんだよね。まるでプレミアムな製品を使ってるみたいで、ニュースサイクルに追いつこうとしたり、競合に対抗しようとしてる感じは全然しなかった。最近はその完璧な感じがなかなか見つからなくなってきた。CCやデスクトップアプリの毎日のリリースや、CC/Coworkで使われるさまざまなハーネスの未知の変更と重なってる気がする。これはちょっと歓迎できない変化だね。今でも市場でのベストな選択肢だと思うけど、以前ほどの差は感じない。時には、スピードを落とすことが逆に早く進む方法だったりするよね。
Claude CodeチームのBorisです。私たちも同意していて、今後数週間でクオリティや信頼性を高めるために投資を増やしていく予定です。フィードバックをどんどん送ってくださいね。
持続可能なビジネスモデルを見つけるためのちょっとした desperation かな。AIのブームは終わりかけてると思う、少なくともシリコンバレーのバブルの外ではね。ハッカーニュースもその一部だし。あとは、ユーザー向けアプリを適当にコーディングしてるのが気になる。
価格を考えると、あんまりベストな選択肢とは思えないな。ちょっと雑だし、競合も追いついてきてるし。他のモデルでも同じような結果が出てるし、Kimiと比べてもかなり安いしね。
>プレミアム製品を使っているように感じたし、ニュースサイクルに追いつこうとしたり、競合に返答しようとしたりしている感じは全然しなかった。わからないけど、デスクトップアプリは本当に遅かったし、Codeセッションを切り替えるのにも何も起こらない数秒があった。でも、最新のデザインに変わってからは、ずっと良くなって、サクサク動くし、ほとんどの点で使いやすくなったと思う。ネガティブな部分に目が行きがちだけどね。残っている欠点は目立つ:例えば、Chat / Cowork / Codeモードは現在選択されているモードのラベルしか表示されなくて、他はアイコン(あんまり大きくない)だから、同僚はデスクトップアプリにそのモードがあることに気づかなかった(少なくとも切り替える場所だとは思ってなかった)。
Opus 4.7で私の心は離れちゃった。噂によると、OpenAIは必死に企業市場に食い込もうとしてて、夏まで無制限のトークンを提供してるらしい。それでGPT5.4を試してみたけど、正直言って、特別扱いされてるかどうかわからない。でも、ここ30日間、すごく高い努力で動かしてみたら、ほとんどミスを見なかった。時には、私が指示し忘れたことを事前にフォローしてくれて、データの整合性を100%正確に保つために重要な部分で笑顔になったこともあったよ。
余計に高い負荷でトークンを消費するのがわかる。タスクの90%は中程度で5.4を動かして、もし中程度が苦しんでたら高負荷にする。すごく集中して、最小限の変更でやってるよ。
同じく。これらのトラブルは、Anthropicが計算リソースに制約があって、無茶なリスクを取らざるを得ないからじゃないかなって思う。
コーディングに関連するタスクではなく、UXフローやプロダクトマネジメント、複雑な実装の計画などの広い視野で考えるのが得意だと思う。でも、Opus 4.6や4.7よりも良いパフォーマンスを見たことはまだないな。
新しいモデルについて文句を言うタイプじゃないし、ここ数ヶ月でみんなが言ってたClaude Codeの問題もほとんど経験してない。リリース以来使ってて、ほぼすべての新しいアップデートに満足してたんだけど、Opus 4.7までの間は、初めて以前のモデルに戻った。性格的にはAIの中で最悪で、「xじゃなくてy」とか、強い短文、全体的にクソみたいな雰囲気、実際にはチェックしてないのに何かを直したってガスライティングされてる感じ。何が起こってるのか分からないけど、もしかしたらClaude Design(これも素晴らしいけど)みたいなハーネス用に調整されてるのかも。でも今はOpus 4.6でいくよ。
私の仮説は、VMの出力の非決定的な性質による「運の要素」で、品質が落ちてるように感じる部分があるってこと。数週間前、Claudeに低リスクな個人用生産性アプリを作ってもらいたかったんだ。どう動いてほしいかを説明したエッセイを書いて、「これに対する実装計画を書いて」って言ったんだ。最初のイテレーションは_素晴らしく_て、私が期待してた通りだったけど、意図してた方向とは違う部分があったのは、私が曖昧に指示したせいだった。エッセイでその曖昧さを修正したけど、既存の実装計画を修正させる代わりに、新しいチャットで最初からやり直したんだ。前と同じことを書くか見たかったから。結果は全然違って、実際には出力がずっと悪かった。次の2つは燃え尽きて、倒れて、沼に沈んでしまったけど、4つ目は(やっと)最初のものと同じくらい良かった。これからわかったのは、Claudeにタスクをやり直させるのは、質の高い出力を得るためにはしばしば良いことだってこと。もちろん、自分のトークンを払ってるなら、すぐに高くつくかもしれないけど…。
>3月4日に、Claude Codeのデフォルトの推論努力を高から中に変更して、非常に長いレイテンシーを減らしたんだ。高モードで一部のユーザーが見ていた、UIがフリーズしたように見えるくらいの遅延を解消するために。UIを直す代わりに、デフォルトの推論努力パラメータを高から中に下げたの? そして「劣化に関する報告は非常に真剣に受け止めている」と言っているのに? ここでは彼らに疑いの余地を与えるのが非常に難しいね。
最近の品質低下の噂を考えると、アップデートとトークンの返金をしてくれたAnthropicには良い評価を与えたい。透明性を称賛するよ。