ハクソク

世界を動かす技術を、日本語で。

「Claude Opus 4.7」はセッションごとに20〜30%のコスト増加

概要

Anthropic Claude Opus 4.7の新トークナイザーは、4.6よりも1.3〜1.45倍多くトークンを消費。
実際の技術文書やコードで上限値に近いトークン増加を確認。
料金やクォータは据え置きだが、1セッションあたりのコストが20~30%増加。
厳密な指示遵守率は+5pp向上したが、効果は小さい。
用途によってコスト増に見合うかは異なる。

Claude Opus 4.7 トークナイザー移行の実態

  • 新トークナイザーは4.6より1.3~1.45倍多くトークンを消費(公式ガイド記載より高い実測値)
  • CLAUDE.mdファイル技術ドキュメントで1.45~1.47倍の増加を確認
  • 英語・コード中心の実用データで1.325倍、**CJK(日本語・中国語)**では1.01倍とほぼ変化なし

サンプルごとのトークン増加率

  • 英語技術文書: 1.47倍
  • Shell script: 1.39倍
  • TypeScriptコード: 1.36倍
  • Markdown(コード含む): 1.34倍
  • Pythonコード: 1.29倍
  • JSON: 1.13倍
  • 日本語・中国語: 1.01倍

トークナイザーの変化内容

  • **非ラテン系(CJK等)**は変化が小さい
  • 英語・コードは短いサブワード単位で分割される傾向
  • コードは頻出パターンが多いため、トークン増加の影響が大きい

コスト増加の具体例

  • セッション単位のコスト:
    • 4.6: 約$6.65
    • 4.7: 約$7.86~$8.76(20~30%増加)
  • 最大プラン利用者レートリミットに先に到達する可能性が高まる
  • キャッシュヒット率キャッシュ無効化時のコスト増加も顕著

指示遵守率の変化

  • IFEvalベンチマークによる評価
    • 厳密な指示遵守率が+5pp向上(4.6: 85%、4.7: 90%)
    • 大きな劇的改善ではなく、小幅な向上
    • 複数制約があるプロンプトで4.7が優位

コスト増加の内訳と影響

  • キャッシュリードがコストの大部分を占める
  • 出力量が増えると、さらにコスト増加
  • キャッシュ無効化イベントモデル切替時は特にコスト増

結論:コスト増加に見合うか?

  • 英語・コード中心の利用では1.3~1.45倍のトークン増加を想定する必要
  • 指示遵守の向上は+5pp程度の小幅な改善
  • 20~30%のセッションコスト増加が許容できるかは、ユーザーの用途次第
  • 厳密な指示遵守が重要なケースでは価値があるが、コスト重視なら影響大

Hackerたちの意見

LLMは、対数的なパフォーマンス/コストのフロンティアに存在してるんだよね。Opus 4.5+がこのフロンティアでのレベルシフトを示しているのか、それとも単に高いパフォーマンスを提供する位置にいるだけなのかは、ちょっと不明だな。でも、推論コストに対するリターンが急激に減少しているのは確か。今のところ、この仮説を否定するのは難しいと思う。Anthropicが急速に価格を上げようとしているのは、最近のリードが劇的に高い運営コストの代償であることを示しているかもしれないね。この前の四半期の粗利益率は、重要なデータポイントになると思う。モデル評価のグラフがコスト/トークンの対数をx軸に表示する傾向(例えばArtificial Analysisのサイト)が、このダイナミクスを見えにくくしている気がする。
彼らはIPOに近づいていて、ユーザーベースも増えてるからね。IPOの目論見書で他の人の何十億ものお金を失う理由を正当化できない。だから、ユーザーあたりの収益を増やそうとする圧力があって、これがモデルを運営する本当のコストに近づいているんだ。
ここでToby Ordの研究を参照したかったんだ。彼のパフォーマンス/コストのフロンティアの枠組みは、もっと注目されるべきだと思う。
> Anthropicが急速に価格を上げようとしているのは、最近のリードが運営コストの大幅な増加を伴っている可能性を示唆しているか、もしくはOpenAIのように異常な資本を燃やすつもりがないだけかもしれない。
まあ、これらのモデルを運用するコストが単純な推論コストだけじゃないっていうサインはあったよね。実際、アンソロピックのコストは多くの人が言うほど簡単じゃないっていうのも、今でもそうだと思う。だから、この値上げには全然驚かないよ。いつか来るだろうとは思ってたし、まだまだ終わってないんじゃないかな。2、3年後には「マックス」プランが800ドルとか2000ドルになるかもしれないね。
昨日、週間の制限がリセットされたのが嬉しかったんだ。[1] それで、たくさんモックアップ作業をしてるから、HTMLもたくさん書いてるんだけど、1Mトークンのやつは本当にトークンをめちゃくちゃ消費してる気がする。もう1日で週間制限の27%に達しちゃったよ。
俺も似たような感じだな。トークンをめちゃくちゃ使うし、指示に従うROIがよくわからない。ちょっと幻覚を見てる感じがする(経験談だけど)。
俺は逆のことを感じてる。Opus 4.7とxhighを使ってるけど、セッションの使用が減ってるし、動作も速くなってる。Team Proアカウントでの週間使用量もあまり変わってないよ。
4日間の労働週!
今22%だよ、タスクは2つだけ。バグ修正とスカラー統合。
> もう1日で週間制限の27%に達しちゃった。痛いな、これは全然違う体験だね。どのくらいの努力レベル?セッションコンテキストの使用を350kくらいに抑えるように気をつけてる?
個人的には、モデルの品質が徐々に向上しても、限界があると思う。8Kディスプレイと16Kディスプレイを比較するようなもので、通常の視距離では違いがほとんどわからないけど、16Kはかなりのプレミアムがかかる。知能にも同じことが言える。確かに、一部のユーザーは意味のある向上を感じるかもしれないけど、99%の人が日常の仕事で違いを感じられないなら、それって重要なのかな?20-30%のコスト増加は、感じられる価値の比例した飛躍をもたらす必要があるよね。
使うモデルによると思うよ。ウェブ検索やウェブページの要約に使うなら、すでにプラトーに達してるかもしれない。でも、コーディングに関しては、ソフトウェアの複雑さには限界がないからね。モデルが認識できる不変条件や潜在的な相互作用が多ければ多いほど、たぶん良いんだろう。より大きなコードベースを扱えるし、人間が無援助でそのコードベースに取り組むにはもう限界を超えてるかもしれない(それは他の潜在的な問題を引き起こすけど)。
そうなんだよね、これが一番の問題なんだ。20〜30%高く払うのは構わないけど、リターンは何なの?パフォーマンスの改善が見えないんだよね。Anthropicはその改善についてのデータを出してないし、「より良い指示に従う」みたいな曖昧なことしか言ってないし。
ローカルで動かせる4kモデルが出たら、大手3社にとっては本当に厄介なことになるだろうね。まあ、少なくともGoogleは広告収入があるから大丈夫かな。
同意するけど、モデルの知能にはかなりのバラつきがあるよね。一般的な改善の指標として気にしない知能の領域もあれば(例えば「人類最後の試験」みたいな知識ベースのベンチマークや数学の定理を証明することなど)、もっと意味のある改善が見込める分野には、喜んで10倍以上の金額を払ってもいいと思う。ツールの使い方、指示に従うこと、判断力や「常識」、経験からの学び、センスなどがそれにあたる。これらの中には進展が見られるものもあれば、今のLLM+思考の連鎖のパラダイムに固有のものもあるみたい。
>私見だけど、モデルの質が徐々に向上しても、効果が薄れるポイントがあると思う。それは必ずしも一つの明確なポイントではないと思う。私の経験では、それはハーネスやツールの質や力に結びついている。より強力なツールがあれば、以前は気づきにくかったモデル間の違いが明らかになることがある。これはディスプレイの例えに合っていて、解像度の改善が見えなくなるポイントは、どれだけ離れて座るかによるってことを言ってるんだ。
たくさんの意見を見て、同意する部分が多いけど、オーパス4.6のナーフなしの状態はすでに存在していて、多くのソフトウェアの使用ケースでは、純粋なモデルの知能よりもツール、スピード、コストにもっと価値があると思う。
コメントの長いバージョン https://www.linkedin.com/pulse/imperceptible-upgrade-petko-d...
> 個人的には、モデルの質が向上しても、効果が薄れてくるポイントがあると思う。正直、もうそこに来てる気がする。
タスクの要求によるね。「成功する薬の設計に95%まで到達した」と「100%まで到達した」って、価値の面で大きな違いがあるし、その小さな知能の向上がコストを数桁増やす理由になるよ。
> 個人的には、モデルの質が向上しても、効果が薄れてくるポイントがあると思う。数年前のことを言ってるの?
タイトルはちょっと誤解を招くね。トークン数は増えているかもしれないけど、特定の知能レベルに対するタスクあたりのコストはそうでもないかも。これについてはArtificial Analysisのインテリジェンスインデックスの結果を待つ必要があるし、他の独立したタスクごとのコスト分析も見てみたい。最終的な計算は、Opus 4.7がOpus 4.6と全く同じ軌道と推論出力を使う前提になってるけど、確認はしてないけど、Opus 4.7のLow思考がOpus 4.6のMediumよりも明らかに良いから、そうではないと思う。
これについて実験してるんだけど、自分のデータを見た限りでは、「Opus 4.7のLow思考がOpus 4.6のMediumよりも明らかに良い」というのは本当じゃないと思う。一般的にOpus 4.7は似たような使い方に対して高くつくんだ。確かに、他の条件が同じならパフォーマンスが良いって議論はできるけど、実際にそれを確認できてないんだよね。
記事が間違っている可能性は非常に低いと思う。4.7のインテリジェンスの向上はそれほど大きくないし、トークンの支出のほとんどは入力やツール呼び出しに使われていて、これがこの向上によってもあまり変わらない部分が多いから。
最近よく考えてる質問が「本当にもっと強力なモデルが必要なの?」ってことなんだ。今の業界の大きな問題は、常に高性能なモデルを追い求めていて、その代償が他のすべてに影響してることだと思う。これから数年で見たいのは、最も強力なモデルを作ることから、持続可能性を重視して効率に焦点を当てることに変わること。GPT-3の時代は未来の可能性を垣間見せてくれたけど、あのモデルは今のものに比べたらおもちゃみたいなもんだった。GPT-4 / Claude 3の時代では、ツールとして使えるようになったけど、かなりの監視が必要だったよね。今のGPT-5 / Claude 4の時代では、あまり先に進む必要はないと思うし、効率と持続可能性に焦点を当てるべきだと思う。これから数年で業界が注力すべきは、高性能ではなく低性能の方だと思う。0.5B〜1Bパラメータのモデルを特定のタスクに対してもっと良くすることに集中してほしい。今、特定のタスクのために0.5Bモデルのファインチューニングを試してるけど、長期的にはそれがAIの未来だと思う。
同意するけど、でもここで使ってる自分がいる…業界は小さいモデルや大きいモデルなど、いろんな方向に進んでると思う。Googleの最新モデルも試してみたいけど、ああ、こんなに新しいモデルがたくさんある中で一人に何ができるんだろう…
GitHub Copilotの「倍率」が3から7.5に上がったね。実際には20-30%しかないのに、マイクロソフトが少しでも損失を抑えたいってことがわかるのはいいね。 https://docs.github.com/fr/copilot/reference/ai-models/suppo...
うん、それで「オーパス4.7は絶対に有効にしない方がいい」って推薦を自分の組織にしたばかりだよ。今はオーパス4.6(3倍)とオーパス4.5(3倍)を有効にしてるけど、計画には価値がある。4.7の7.5倍は、全然無理。オーパス4.6よりもアップグレードかどうかもはっきりしないし。
どうやらMaxを使ったテストをしているみたい。4.7ではAnthropicがMaxの高いトークン使用を認識していて、ほとんどのケースで新しいxhighモードを推奨している。だから、実際の質問は4.7のxhighが4.6のMaxより「良い」かどうかだと思う。 > Max: Maxの努力は一部の使用ケースでパフォーマンス向上をもたらすことがあるけど、トークン使用が増えると効果が薄れることもある。この設定は時々、考えすぎになることもあるから、知能を要求するタスクにはMaxの努力をテストすることを推奨するよ。 > xhigh(新しい): Extra high effortはほとんどのコーディングやエージェント的な使用ケースに最適な設定だよ。参照: https://platform.claude.com/docs/en/build-with-claude/prompt...
xhighティアを挿入してMaxを大幅に押し出すのは、「これが11になる」って感じがするね。
アンソロピックには厳しい状況だね、特に投資家のお金を何十億も燃やしてることを考えると。オープンAIが上手くやれば、彼らの終わりかもしれない。さらに、中国のオープンソースモデルもあるし。
確かに値段は高いけど、出力の質が全然違うって感じたよ。ここ2ヶ月くらいの手抜きモデルよりもこっちの方が好き。ユーザーが自分のタスクに合ったモデルを選ぶことに慣れる必要があるね(自動モードもあればいいけど、強制的にモデルを選べるようにしてほしい)。
今日気づいたんだけど、スプレッドシート作ってもらったら、会話の中で3、4回しかやり取りできないうちにプロクレジットが全部なくなっちゃった。そんなに複雑な内容でもなかったのに、まあまあ程度だったのにね。