ハクソク

世界を動かす技術を、日本語で。

クロードをキャンセルしました:トークンの問題、品質の低下、サポートの不備

概要

  • Claude Codeの最初の使用感は非常に良好
  • サポート対応やトークン制限に関する不満が増加
  • 品質の低下やキャッシュ仕様にも課題を感じる
  • 謎のトークン警告や月間制限の不明瞭さ
  • 結果的にアカウントを解約した体験談

Claude Code:最初の熱狂と失望

  • 数週間前にClaude Codeへ加入、最初は速度・トークン許容量・品質に満足
  • 非ラッシュ時のトークン増量や政府規制への反対姿勢に共感
  • 利用開始から3週間後、トークン使用量が急増する問題が発生
    • 10時間以上の休憩後、簡単な質問2つでトークン100%消費
  • サポートへ連絡も、AIサポートボットは定型文のみ
    • 人間サポートもマニュアル回答+一方的なチケット終了
  • 問題解決されず、顧客対応の冷たさを実感

品質の低下とトークン制限の厳格化

  • 以前は3プロジェクト同時進行可能だったが、今は1プロジェクト2時間で制限到達
  • モデルの思考ログで手抜き実装(ワークアラウンド)を発見
    • 指摘するとモデルも「手抜きだった」と認める
  • このやり取りだけでトークン消費量が急増
  • 他サービス(Copilot, Codex, OMLX, Continueなど)も利用経験あり

キャッシュ仕様とトークン消費の問題

  • 会話キャッシュが切れると再度コードベースを読み込む必要
    • 同じ内容で二重にトークン消費
  • 週次リセットのタイミングが突如変更される混乱
  • 利用中にトークン制限警告が表示されるも、実際は制限未到達
    • 数時間後に警告が消えるが、月間制限の詳細不明
  • ドキュメントや設定画面にも月間制限の記載なし

Anthropicへの期待と失望

  • Claude自体の機能や生産性向上には大きな満足感
  • 技術的・組織的な課題(スケーリングの難しさインクリメンタルコスト)も理解
  • しかし、急激な顧客増加への対応不足を感じ、最終的にアカウント解約を決断

まとめ

  • 最初の体験は素晴らしいが、運用やサポート、品質、トークン管理の面で失望が積み重なる
  • 顧客対応や透明性の向上が今後の課題

Hackerたちの意見

Claudeを使ったら、セッションの制限を100%使い切っちゃった。追加でお金もかかったし、53分考えてたら、「APIエラー:Claudeの応答が32000トークンの最大出力を超えました。」って言われた。これを設定するには、CLAUDE_CODE_MAX_OUTPUT_TOKENS環境変数を設定してね。
高使用率の時間帯に使ってるみたいだね。これを意識してるといいけど、高使用時間外に使うと少なくなるはずなのに、Sonnetがこんなに使うのはちょっと変だよね。
ちょっと気になるんだけど、Maxのバージョンは5xそれとも20x?
そして第七日目、APIエラー:Claudeの応答が32000トークンの最大出力を超えました。
エラーをClaudeにコピー&ペーストすれば、続けられるよ。ここ数ヶ月で何度も見たことがある。AWSのベッドロックに関係してると思ったけど、多分違うね。
5分以上考えさせるのは、プロセスを殺すことになると思う。
これが心配なんだよね。人々がこういう独自のGenAI製品に依存しちゃって、透明性もなく、サブスクリプションが必要になる。みんながそれをしっかりした基盤だと思って構築するけど、突然オーナーがその基盤を引き抜いちゃうんだよね。
幸い、ローカルAIは毎日実現可能になってきてるね。
その通り。だからこそ、誰でもアクセスできて、常にローカルで使えるオープンソースのモデルが重要なんだよね。競争(OpenAIとAnthropicの対決は見てて面白い)とオープンソースがあれば、すぐにそこにたどり着けると思う。
早くキャンセルすればするほど、彼らから独立できるよ。
オーナーが rug-pull するか、Broadcomがオーナーを買収して圧力をかけ始める。
でも、これらの製品はお互いの代替品なんだよね。最近はCCよりCodexを好むようになったのは、レート制限がちょっと面倒になったから。ワークフローに関しては何も変える必要がなかったけど。
この技術の投資家の中には独占的な地位を望んでいる人もいるね。競争相手を出し抜いて、圧倒的なリードを得たいと思ってる。その時に価格を設定できるから。でも、今のところ競争は激しいままだ。Anthropicはまだコードを書くための最高のツールを持ってる。ただ、そのリードはこれまでで最も小さいけどね。正直言うと、Opus 4.5が「十分良い」って感じだった。もしAnthropicが急に私が払える以上の価格を設定したら、Opus 4.5以上のパフォーマンスを提供するモデルは、私がエージェントでやる大半の作業には十分だよ。今、そのレベルのモデルはたくさんあって、もしかしたら割引の中国製モデルも含まれてるかも。確かにGemini Pro 3.1はOpus 4.5と同等だし、現在のCodexはOpus 4.5よりも良くて、Opus 4.7に近い(ただし、OpenAIは信頼できないから使わないけど)。同じプロジェクトでエージェントやモデルを頻繁に切り替えるのは、自己ホスティングでいじるのが好きだからで、効率的な作業方法を常に見ていたいからなんだ。どのモデルが無駄な時間を減らしてくれるかをね。切り替えは本当に簡単で、`gemini`や`copilot`、`hermes`を使うだけで、`claude`の代わりに使える。特定のモデルやエージェントに深く依存することは全くない。もちろん、みんな独自の機能を作って人々に依存させようとしてるけど、トップモデルは本当に賢いから、必要なことを何でもやってくれるように指示できる。あの機能はおそらくスキルになるだろうし、モデルがそのスキルを書くこともできるだろう。あるいは、さらに良いことに、それはモデルが書いた実際のソフトウェアになるかもしれない。現在、一貫した優位性は最高のモデルを作ることだけだ。Anthropicはコーディングのための最高のモデルとツールを作ってるけど、それはかなり浅い優位性だね…他のいくつかのモデルでもコーディングはできる。最高のモデルとツールには喜んでプレミアムを払うけど、明日突然Claude Codeが使えなくなってもショックは受けないよ。自分でホストできるオープンモデルも、十分良いレベルに近づいてきてる。
依存しすぎてて、言葉をひねって「今はゼロに詰まってる」ってことを隠さないといけない人もいるよね。
AIサービスはトークン使用量を減らすインセンティブがほとんどないんだ。高いトークン使用を望んでるから、もっとお金を払わせることになる。どこまでが限界か、どれだけのトークン使用で怒られるかを常にテストしてる。AI企業はコストが上がるにつれて、トークンの使用とコストで入れ替わることが続くよ。今は、沸騰する前のカエルのように、ぬるい水の中でお風呂のふりをしてる状態だね。
それ、私も思ってる。陰謀論みたいに聞こえるけど、結局Anthropicとかが仕事を終わらせないモデルから利益を得てるんだよね。最近「過剰編集現象」について読んだんだけど、機械はいつまでたっても終わらない。終わりたくないみたい。デーティングアプリみたいなもので、いい相手を見つけられたらサブスクリプションをキャンセルされちゃうから、そうなってほしくないんだ。
だから、こういうスレッドにアップボートするのが大事なんだよね。Hacker Newsではみんな怒ってるし!
ある程度はね。経済的なインセンティブは、a) 実際にキャパシティが制約になっている時と b) Anthropicが独占企業じゃなくて、もっとユーザーフレンドリーな競合からの圧力を受ける時には意味がなくなる。
AWSについても同じこと言われてたよ。「なんでお金を節約してくれるの?」って。実際、価格を下げるたびにもっとお金を稼いでるんだ。なぜなら、もっと多くの人がサービスを使うから。AI企業も同じインセンティブがある。安くすればもっと使ってもらえて、もっとお金が入る(コストがまだ上回ってる前提だけど)。もちろん、コストを下げる理由もたくさんあるしね。
昨日は自分にとっての気づきの瞬間だった。ローカルLLMを使ってClaudeコードに簡単な抽出タスクを与えたら、10分間「ウィーン」って音を立ててた。同じデータとプロンプトをllama_cppのチャットUIに直接送ったら、1分もかからずに一発で処理された。だから、コーディングエージェントかLLMとのやり取りに何か問題があるのは明らかだね。今は、すごくシンプルなオープンソースのコーディングエージェントを探してる。NanocoderはMacにインストールできないみたいだし、ノードモジュールの膨張もあるから無理。Opencodeもあんまりオープンソースって感じじゃないし。今のところ、コーディングエージェントの仕事を自分でやって、llama_cppのウェブUIを使ってるけど、なんとかうまくいってるよ。
Swivalは膨張してなくて、ローカルエージェントのために特別に作られたものだよ:https://swival.dev
https://pi.dev/ は人気みたいだけど、opencodeのどこがオープンソースじゃないの?リポジトリはMITライセンスだよ。
CursorとClaude Codeの両方を使ってるけど、後者は同じモデル・設定でも明らかに遅いよね。ただ、Cursorのコストを正当化するのは難しい。ある時、月に1,500ドルの請求が来たことがあって、それがCCを試すきっかけになった。
もしまだ思いついてなかったらだけど、好きなコーディングエージェントを自分で作ることもできるよ。結構簡単だから。
llama_cppでどのモデルを使ったの?
多分バカなアイデアだけど、今のAIに自分のために作らせるのはどう?自分が欲しいコーディングエージェントを正確に作れるよ、特に「超シンプル」を求めてるなら。今週Anthropicの変な行動にイライラして、実際にこれを試してみたら、数日で動くものができた。俺のケースはユニークで、BeOSや古いMac用のClaude Codeがないから、エージェント的なコーディングエージェントをそのプラットフォームで本当に欲しいなら、何かをブートストラップして繋げる方が簡単だった。プロセスの中で、モデルが実際にどう動くかについてもたくさん学べるし、Claude Codeでどれだけ無茶なパッチが行われてるかもわかるよ。ただ、エージェントやハーネスが解決しなきゃいけない難しさも理解できるかもね。(ちなみに、CCが使えるプラットフォームではまだ使ってるよ。) llama_cppとClaude Codeの遅延については、俺も遭遇したことがある。俺の仮説は、APIがClaude Codeのサブスクリプショントラフィックより優先されてるってこと。APIは確かにすごく速く感じるけど、その分かなり高い料金を払ってる。
CCはローカルモデルで動かせるよ、結構簡単だし。私はvLLMとエンドポイントの構文を変えるための薄いシムを使ってこれをやったことがある。
Claude Opusを結構うまく使えてる気がするし、正直、中級のサブスクリプションでも限界にはぶつかってないよ。僕のワークフローは「コパイロット」って感じで、タスクごとにプロンプトを作って、ほとんどすべてを見直してるから、雰囲気コーディングしてる人たちに比べるとかなり軽い。市場のトップ技術は、僕が使ってる範囲では「十分良い」って感じだね。LLMを使ったコーディングが一般化する日を楽しみにしてる。ちゃんとライセンスされたコードに基づいたオープンソースモデルがあればいいな。
正直言って、倫理的な問題がなければ、MacかAMD 395+と最新モデル、特にQWEN3.5-Coder-Nextがあれば十分やっていけると思う。君が言ってる通りのことができるよ。最大で約85kのコンテキストまでいけるから、ガードレールをしっかり設ければ、小中規模のプロジェクトの長さに収まる。WallEと壊れた地球の間のちょうどいいポイントって感じだね。
私もそんな感じで使ってるけど、全体的には結構満足してる。ただ、彼らが「オートパイロット」モードで使わせたいって感じがする。なんか「もっとトークンを使わせて、請求額を増やしたい」っていうのと「人々が予想以上にトークンを使ってる、価格構造がもはや持続可能じゃない」っていう二つの矛盾した優先事項があるみたい(でも、実際には「解決策」が上位プランにアップグレードすることなら、矛盾してないのかもね)。
Max 5xを使ってて、xhighモードでClaude Opusだけ使ってるんだ。エージェントやMCPは使わず、Claude Codeにこだわってる。使い切るのがめっちゃ難しいんだよね。平均的な週の終わりには30%くらいで、これが俺のためにすごい量の作業をしてくれてるのに。プロ版の時は常に制限に引っかかってたし、リクエスト一つでセッションが100%を超えて追加料金を払わなきゃいけなくなってた。Max 5xは5倍以上の使用感があるけど、どうなんだろうね。Anthropicはサージレートとかについてすごく曖昧だし。最近の「DAEはOpusがクソだと思ってる。みんなCodexに移ろうぜ!」みたいな流れには超懐疑的。元カノみたいに、何かに怒ってる人たちが自分の意見を押し付けようとしてる部分もあるけど、明らかにアストロターフィングの匂いもする。OpenAIが知らないポッドキャスターに1億ドル払ったり、こういうことを書く人を雇ったりしてるんじゃないかって思う。
君の使い方にはKimi k2.6をおすすめするよ。コストの割に素晴らしいモデルで、Claude Codeも使える。俺は自分のClaude Codeスキルを1:1でマッピングしたけど、Opusを離れた気がしないんだ。結果に超満足してる。
コパイロットとオートパイロットの使い方は似てるね。私はその中で一番良いと思ってる。主にたまに検索エンジンとして使ってる。LLMが実際に作業をするのに効率的だとは思ったことがない。技術文書が使えた日々が懐かしい。Claudeは開発者の経験のギャップを埋めるための足場みたいなもんだね。
私のmax20サブは、4月からほとんど使われてない。codexは5.4(今は5.5)でも、ファストモード(=トークンコストが倍)だと全然違う。Opusは説得力のある失敗をして、重要な詳細の半分を忘れたり、「実用的」(要するに技術的負債の応急処置とか)なことを静かにやって成功したって主張するけど、変更後にすべてが崩壊してもお構いなし。エラーを指摘すると、さらに混乱を招く。Opusはグリーンフィールドのスコープを一発でやるにはすごく良いけど、その後の反復や複雑な統合には全然使えなくて、逆に悪影響を及ぼす。GPT 5.4+は時間をかけて、実際に正しいエッジケースを考慮して、後のエラー探しの手間を省いてくれるし、最終的に結果を出してくれる。しかも「これ、マルウェアに見えない」とか「ちょっと待って」みたいな思考ループで何分も無駄にしない。
私のLLMに対するメンタルモデルは、同時にガムを噛んで歩くことは期待してないって感じ。コードをきれいにするのは新しい機能を作るのとは別のタスクだし。GLMはいつも賢くやってるように感じるけど、実際にコードを見直すとそうでもない。だから、ビルド/プルーンサイクルは必要なんだよね。私の経験では、そんな感じ。
時々同じClaudeモデルが論理的なエラーを出すことに気づいたんだけど、他の時は出さないこともある。Claudeのパフォーマンスは時間によって変わるんだ。グラフもあるよ! https://marginlab.ai/trackers/claude-code/ これを公に言ってる人は見たことないけど、同じモデルが量子化によって全然違う結果を出すことに気づいた。4ビットと8ビットでは計算要件や出力品質が違うからね。 https://newsletter.maartengrootendorst.com/p/a-visual-guide-... フロンティアモデルは同じようには動かないことは知ってるけど、ピーク時とオフピーク時で各モデルがどれだけのメモリやリソースを使うかを変えるフィデリティダイヤルがどこかにあるのか、ずっと気になってる。誰か知ってる?
あのグラフが時間に基づく相関を示しているとは思えないな。60%のラインが95%の信頼区間内に収まってる。これはただのノイズの測定じゃないの?
私と多くの同僚は、ここ2ヶ月でClaudeの認知能力が大きく低下しているのに悩まされています。4.5は使えたし、4.6は素晴らしかった。自分なりの基準があって、4.5は二方向ポインタのマージループをなんとか追跡できたけど、4.6は三方向をこなして、1Mコンテキストでk-wayもできた。この追跡能力が実際のプロダクションコードを理解するのに直接役立って、変更を加えたり、役に立ったりしてたんだけど、2ヶ月前から4.6が忘れっぽくなって、すごくバカな決定をするようになったんだ。みんなで情報を共有し始めて、「自分だけじゃないんだ」と気づいた。4.7もあんまり良くなくて、ここ数週間は自動的に努力レベルがダウングレードされるのと戦ってる。考えると「それはバカだな」と思って設定を再確認しに行くと、静かにダウングレードされてるのが分かる。みんな4.6の初期の頃が恋しいよ、あの頃は本当に使えるモデルだったから。LLMは本当に強力だけど、一般市場に提供する際にAnthropicがそれを役に立たないように制限してる。私の考えでは、もうすぐdeepseekが4.6以上の「十分すぎる」レベルに達して、みんながClaudeの「もっと払って少ないものを得る」軌道から抜け出せると思う。私たちが既に見たことがあるもので、今は可能だと分かっている以上のものは必要ない。私たちがそれをコントロールできて、メーターではなく提供される形で必要なんだ。
4.7をxhighかmax effortに設定した?それ以外は基本的に時間の無駄だよ…
これは実際の問題で、Anthropicも最近認めたね:https://www.anthropic.com/engineering/april-23-postmortem もちろん、企業が失敗するのは最悪だけど…同時に、彼らは「みんなに返金した」と言って、しばらく制限を解除してくれたし(私にとってはもっと重要なことだけど)、全体について透明性を持っていた。これほど透明性を持つ他の主要なAIプロバイダーを見つけるのは難しいから、Claudeにはイライラするけど、彼らの対応には敬意を表するよ。
私もサブスクリプションをキャンセルしたよ。20ドルのプロプランは、実際の作業には完全に使えなくなった。特にイライラするのは、Claude ChatとClaude Codeが同じ使用制限を共有していること。ワークフローが全然違うのに、製品の観点から見ると全く意味がない。200ドルのマックスプランも大幅に制限されちゃった。以前は1週間(それ以上)使えたのに、今は数日で使えなくなっちゃう。質の低下と予測できないトークン消費が重なって、もう全然価値がない。
AIをサポートシステムとして使ってるほとんどの人が、すごく明白なところで全然うまくいってない気がする。サポートシステムの最初の仕事は、重要性と時系列の両方で、トリアージなんだよね。これはリサーチの問題でも、インタラクションの問題でもない。根本的には分類の問題で、そういうふうにトレーニングして実装すべきなんだ。インタラクションには大きく分けて3つのカテゴリーがある。クランク、グランマ、そしてWTFだ。クランクは、サポートチャットを開いて「ケネディ暗殺についての重要な情報が足りない」とか、「ミノットに駐留してたときにエージェントオレンジにさらされたことで政府を訴えたい」って言ってくる人たち。 「残念ながら、それにはお手伝いできません。私たちはホールセールの冷凍レモネードを売ってるウェブサイトです。頑張って!」グランマの質問は、あなたのウェブサイトをうまくナビゲートできない人たちのこと。(これは侮辱するつもりじゃなくて、ただ具体的に言いたいだけ。私もグランマの質問をすることがよくあるから。)彼らには、ヘルプページやKB記事、設定ページなど、何かリソースを指し示してあげる必要がある。WTFはそれ以外のすべて。変な未文書の挙動、突発的な状況、無効な状態などなど。これらはあなたの最高の顧客で、できるだけ早くリアルな人間、できれば賢い人にエスカレーションすべきなんだ。彼らは最高の顧客だから、(a) 実際に問題が起きたものを修正するために時間を投資している;(b) バグレポートよりも詳しく、リアルタイムで手伝ってくれる;(c) 彼らは投資しているから、実際の忠誠心や口コミのチャンスがある。ほとんどのAIシステム(LLMでもスクリプトでも)が間違っているのは、WTFをグランマのように扱っていること。彼らは、顧客基盤の中で最も知的で情熱的な人たちから得られる価値を壊すために、これらのシステムを構築するのにかなりの金を使っているんだよね。