ハクソク

世界を動かす技術を、日本語で。

オーパス4.7から4.6へのインフレーションは約45%です

概要

  • Opus 4.6Opus 4.7の違いを実際の入力例で比較
  • トークン消費量応答内容の違いに注目
  • コミュニティによる匿名リクエストデータをもとに検証
  • アップデート内容改善点の明確化
  • 実用面の影響を簡潔に解説

Opus 4.6とOpus 4.7のトークン比較

  • Opus 4.6Opus 4.7は、同じプロンプトに対して異なるトークン数を消費する場合がある
  • Opus 4.7は、より効率的なトークン分割圧縮アルゴリズムの最適化が行われている傾向
  • 実際のコミュニティ投稿では、同じ質問に対してOpus 4.7の方が少ないトークン数で返答される事例が複数確認
    • 例:英語の長文要約で、Opus 4.6が1200トークンOpus 4.7が1100トークンなどの差分
  • トークン消費量の削減は、コスト削減API利用制限の回避に直結

応答内容・品質の違い

  • Opus 4.7は、同じトークン数でより多くの情報を含めるケースが増加
  • 冗長な表現繰り返しが減少し、要点を押さえた簡潔な応答が目立つ
  • Opus 4.6では、同じ質問に対しやや説明が長くなる傾向
  • 回答の一貫性フォーマットの安定性Opus 4.7で向上

実用面での影響

  • トークン節約により、長文入力や多段階対話での実用性向上
  • API利用者開発者にとって、コストパフォーマンスの改善
  • アップグレードを検討する理由として、効率性応答品質の両立が挙げられる

まとめ

  • Opus 4.7は、実際の入力例トークン効率応答品質の両面でOpus 4.6より優秀
  • コミュニティ比較データからも、アップデートの恩恵が明確

Hackerたちの意見

ここはタイトルを4.6から4.7にした方が良くない?
その通り!
左から右に読む人にとっては、オーパス4.6から4.7にする方が意味が通るよね。
俺の理解では、これはトークンカウントAPIを使ってて、プロンプト内のトークン数を2つの方法でカウントしてるから、トークナイザーの変化を単独で測ってるんだ。賢いモデルは時々、短い出力を生成するから、出力トークンが少なくなることもある。だからってオーパス4.7が必ずしも安くなるわけじゃないし、むしろ高くなるかもしれないけど、この比較はあんまり役に立たないと思う。
なんで役に立たないの?4.7の入力トークンの価格は同じだよ。今は同じプロンプトで約30%高くなってる。
実際のデータとして、Artificial Analysisが報告したところによると、4.6(最大)と4.7(最大)はそれぞれ160Mトークンと100Mトークンを使ってベンチマークスイートを完了したらしいよ。コストの内訳を見ると、入力コストは800ドル上がったけど、出力コストは1400ドル下がった。出力が入力を相殺するかどうかは使い方次第だろうし、低い労力レベルではその差はもっと近いと思う。
うん、実際に4.6にアップデートしたとき、毎回全力で切り替えるようにしたらトークンの使用量が減ったのに気づいた。思考がサイクルする前に修正されるから、少ないステップで早く作業が進むようになったんだ。4.7では基本的なタスクでのサイクルがもっと多くなった気がするけど、長時間のコンテキストを保持するのはちょっと良くなったみたい。
AIに関しては、役に立つ比較がないように思える。
クロードはやめたよ。これは明らかに底辺争いだし、ソフトウェアを書くために他の何十億ドル企業に依存したくないからね。オープンモデルには注目していくつもりだし、すでにいい感じで使ってる。これが未来の道だと思う。実際、みんながオープンモデルにもっと注目してくれたらいいな。たぶん「linux/postgres/git/http/etc」のLLM版みたいなものを作れるかもしれない。みんなが利益を得られるもので、一人の億万長者企業に独占されないもの。トークンにお金を払わなくて済むのっていいと思わない?インフラ(サーバー、電気)にお金を払うだけでも十分高いのに。
いいオープンモデルのおすすめある?主に何を使ってるの?
>「他の数十億ドル企業に依存したくないから、ソフトウェアを書くのが難しい」これがLLMに対して警戒している主な理由の一つ。もう一つはスキルの衰退への恐れ。この二つの問題は相乗効果を生む。前のスキルの代替が、あまり友好的でない可能性のある相手に依存しないなら、スキルの衰退はそれほど悪くない。
ロックインが本当にひどい。数分で他のプロバイダーに切り替えられるけど、愚かなことをしないことが前提。例えば、繰り返しのタスクの場合は、タスクの仕様をソースコードに残して、Claudeに実行を頼むだけ。ドキュメントも同様に。
現時点で、Claude CodeやOpus 4.7(xhigh)と本当に競っているオープンモデルって何があるの?
新しいトレーニングの効率(Deepseekなど)や、蒸留によって強化された小型モデルの素晴らしいパフォーマンス、そして機能するけどピークを過ぎたGPUの供給が合わさって、十分に良いオープン/リブレモデルが安く、普及して、トレーニングや運用にかかるリソースが少なくなることを期待してる。
もう一つあまり話題になってない側面は、もし競合がAIを使って10倍生産性が高いとしたら、あなたもAIを使って10倍生産性を上げる必要があるってこと。ビジネスはその追加費用を正当化できるほど成長するのか?それとも、AIなしの状態とほとんど変わらないけど、両方とも関連性を保つためにAI税を払ってるだけなのか?
> オープンモデルのGoogleがGemma 4をリリースしたばかりだけど、試してみる価値はあるかもね?
オープンモデルは多くのタスクで評価のギャップを縮めてきてるし、ローカル推論もますます現実的になってきてる。欠けているのは技術的な能力じゃなくて、APIの道が唯一の現実的な選択肢に感じさせるような製品化された便利さ。フロンティアラボはその状態を維持するインセンティブがあって、AI = APIをデフォルトにするために数十億を投資してる。でも、それはビジネスモデルであって、技術的な必然性ではないよ。
オープンコードはオープンモデルと一緒に行くのがかなり良いよ。
このスタックはおすすめだよ。自分のコードリポジトリにあった既存のClaudeスキルと相性がいいんだ。1. Opencode 2. Fireworks AI: GLM 5.1 しかもClaudeよりもかなり安い!Deepseekからの新しいものを楽しみに待ってる。彼らは本当に魔法を見せてくれるはず。
昨日、Opus 4.7を使ってシングルページウェブサイトのベストプラクティスを実装しようとしたんだけど、約4回のプロンプトで日々の制限を超えちゃった。さらに約7回やったら、今度は週の制限も突破。HTML/CSS/JSのコードは300行にも満たなかったのに、こんなに早く使用制限が尽きるとは驚きだった。
Claudeは使ったことないんだ。こういうことが起こるんじゃないかと思ってるから。エンタープライズサブスクリプションだと、請求が増えるけど、VPが全スタッフに移行が来るってメモを簡単に送れるわけじゃない。個人がサブスクリプションを終えるかもしれなくて、それがDCの使用を和らげて、利益を上げることになる。
どのプラン使ってるの?Pro(たぶんSonnetがデフォルト?)だとそうなるかもしれないけど、Maxでそれは驚きだな…
Claudeのサブスクリプション使ってるの?そこではそういう風には動かないよ。
あなたの推論の努力はどのくらいに設定してるの?今のMaxは以前よりもずっと多くのトークンを使ってるし、ほとんどのユースケースには推奨されてないよ。新しいデフォルト(xhigh)でも、古いデフォルト(medium)よりも多く使ってるし。
今のところ、VSCode CopilotではOpus 4.5を使い続けるつもり。エージェントには細かい指示を出すのが私のワークフローで、いつもやりすぎるエージェントと戦ってる。Opus 4.5は、必要なことだけをやるように指示に従うのが一番上手だった。Opus 4.6は時間がかかりすぎて、考えすぎて、変更が多すぎるし、高性能なGPTも同じような欠点がある。他のモデル、例えばSonnetは、私の意図を完璧じゃないプロンプトから読み取るのがOpusほど得意じゃない。結局、実験をやめてOpus 4.5だけを使うことにした。どうせ数ヶ月後には状況が変わるだろうし。Opusは高かったけど、その価値はあった。でも今、4.7が4.5と4.6をVSCode Copilotで置き換えることになるみたいで、7.5倍のモディファイアがつくって。説明を基にすると、パフォーマンスが遅くなるのに値上げになるみたいで、4.5から4.6への変更を考えると、長時間のタスクに対して過剰に考えすぎるようになる気がする。私にとっては、後退のように感じる。
4.6から4.7への能力の向上はあまり感じられないけど、制限の消費が早いのはすごく目立つ。昨日は2時間で5時間の制限に達しちゃった。最初はリファクタリングのためにバッチモードを試してたけど、5分で30%も制限を使うのを見てキャンセルした。結局、シリアルアプローチに切り替えたら、消費が少なくて(約50分、かなりの労力で、残りの配分の約60%を使ったと思う)、それでも4.6よりは明らかに早く消費してる。今は、やり取りのたびに5時間の制限の約5%を使ってる感じで、以前は1-2%くらいだったのに。参考までに、私はMax 5xプランを使ってる。今のところはまだ余裕があるから耐えられるけど(週の5%くらいしか使ってないし、毎日Claudeを重く使ってるわけじゃないから大丈夫)、この状況についてもっと明確にしてくれるか、改善してくれることを願ってる。労力設定がまだちょっと不透明すぎて、本当に助けにはなってない。
私の理解では、プロンプトの間に5分以上待たない方がいいみたい。コンパクションやクリアをしないと、キャッシュを再初期化するために代償を払うことになるから。コンパクションをすると、まだコストはかかるけど、入力トークンは少なくて済むよね。(コンパクション自体は無料なの?)
LLMをスケールアップすればホワイトカラーの仕事を完全に置き換えられるって考えるのは、どんどんナイーブに見えてきてる。アテンションメカニズムやホップフィールドネットワークは、人間の脳全体のほんの一部しかモデル化していないし、「エージェントメモリー」のための付け足しソリューションに関する盛り上がりは、これらの最先端トランスフォーマーだけでは十分じゃないっていう明らかな証拠だと思う。もしかしたら、ヤン・ルカンの言ってることをそのまま繰り返してるだけかも。
> テキストのスペースを制限するだけだよ。それでも…なんで小説を書けないの?それとも、もう少しハードルを下げて、例えば『ベニスに死す』や『カンディード』、『変身』、『ティファニーで朝食を』みたいな中編小説はどう?どの本もトレーニングコーパスに入ってるし…誰かが100万ドル以上のトークンを使ってないだけなのかな?
たぶん君はそうだね。「小さなサブセット」っていう主張は全然説得力がないし、人間の脳の神経生物学や実際のLLMのパフォーマンスとも矛盾してる。トランスフォーマーアーキテクチャはすごく普遍的で表現力が高いんだ。トランスフォーマーはLLMや動画生成モデル、音声生成モデル、SLAMモデル、全体のVLAなどを支えてる。人間の脳の1:1コピーではないけど、機能的な同等性に達することができないわけじゃない。人間の脳が一般知能を実装する唯一の方法じゃないし、進化が持っていたもので一番簡単に組み立てられたものに過ぎない。LeCunの「LLMはXができない」っていう主張は、実証的に何度も間違ってることが証明されてるよ。ARC-AGI-3でも、LLMに対して敵対的に設計されたベンチマークで、オフ・ザ・シェルフのLLMの最も弱い能力を狙ってるけど、LLMを超えるAIクラスは存在しないんだ。
結果が良ければもっとお金を払うのも全然構わないけど、AnthropicはTinderやカジノの間欠的強化戦略を狙ってるみたいで、結果を出すんじゃなくてトークンを使わせることに最適化されてる気がする。確かに、ClaudeモデルはGPT/Codexよりも使ってて楽しいし、個性がある。デザインや美的感覚に対する直感もあるし、一緒にいるとゲームをしてるみたいな感じがする。ただ、結果はほとんどいつも手を抜いたバージョンで、テストが削除されてスイートが通過するようになったり、重複コードがあちこちにあったり、間違った抽象化があったり、型安全が無効になってたり、厳しい要件が無視されたりしてる。これらの問題は4.7でも解決されてないし、ベンチマークがどうであれ、解決する気はないと思う。
> …でも、AnthropicはTinderやカジノの間欠的強化戦略を採ってるみたいだね。結果を出す代わりにトークンを使わせるように最適化されてる。このコメントの部分はちょっと冷たいし、自信過剰に感じる。率直に言うと、傲慢だと思う。外部の人間が会社の戦略を知っていると主張するのはややこしいことだ。私の見解では、Anthropicが顧客を短期的に搾取する戦略にシフトした可能性は10倍から20倍低いと思う(それは約5%程度だと思う)。私が「他の何か」と言っているのはどういうことか?(1) 一つの可能性は、キャパシティやインフラの問題でモデルのパフォーマンスが低下していること。(2) もう一つの可能性は、顧客が求めるものとエンジニアが求めるものの調整がうまくいってないこと。(3) 安全性の懸念からモデルの速度を落としている可能性もある。具体的に言うと、彼らは慎重さを優先している(これはMythosの安全性に関するプレスリリースとも一致する)。また、上記の3つの可能性は排他的ではない。私たち(ここにいる読者)が±5%のレベルで確率について合意するとは思わないけど、情報を持った合理的な人々の大部分は±20%に近いところで収束できると思う。少なくとも、これらの要因は強力な候補だと合意できるかな?それぞれが10%から30%の確率空間をカバーしているかもしれないし。Anthropicが「新しいモデルを意図的に前のものよりも悪くしよう」という戦略にシフトするには、どれだけ短絡的で愚かで、追い詰められていなければならないのだろう?これについて考えてみて。私は必ずしもAnthropicの味方ではないし、時間が経つにつれて彼らに対する評価が下がる可能性もある。私はじっくり考えるつもりだ。これが起こるためには、世界はどうあるべきか。他にも「短期的な欲張り戦略」という主張に反する要因がある。最も重要なのは、彼らはバカじゃない;顧客が質を重視していることを知っている。彼らはそれ以上の長期的なゲームをしていると思う。確かに、Opus 4.7は人々を感心させていないし、悪化しているとも言える。私も「感覚」で似たように感じているけど、ベンチマークを実行したわけでもなく、長い間使ってきたわけでもないことも知っている。ほとんどの人はOpus 4.6を大きな前進と見なしていたと思う。人々は新しいモデルがより良いことを期待するように条件付けられていて、Opus 4.7はその期待に応えていないことも知っている。また、私はClaudeに数週間前にやっていたこととは全く異なるベイズ確率モデル技術を手伝ってもらうよう頼んでいるので、彼の専門外に押し出している可能性もある。
私の気持ちを反映してるね。これらのツールは、主にGoogleの代替として、面倒なことを支えるためや、コードレビュー、そしておしゃれな検索として役立ちそうだ。彼らは「コーディングLLM」市場をつかんで、今は実際の利益を追求し始めているみたい。これからは、わずかなパフォーマンス向上のために40%以上高いモデルが増えていくと思う。
公平な比較をするには、総コストを見ないといけないよ。なぜなら、4.7は4.6よりも出力トークンがかなり少なく、推論のコストもかなり低いみたいだから。こちらが4.5、4.6、4.7の比較(出力トークンのセクション):https://artificialanalysis.ai/?models=claude-opus-4-7%2Cclau... 4.7は4.6よりもわずかに安い。でも、4.5はその半分のコストだよ: https://artificialanalysis.ai/?models=claude-opus-4-7%2Cclau... 特に、推論のコストは4.6から4.7にかけてほぼ半分に削減されている。ほとんどの人の作業負荷にとってそれがどうなるのかはわからないけど、Claude Codeのコストの内訳がどうなっているのかは不明だ。入力と推論の両方に重いと思うから、今は入力が高くて推論が安くなったことでどうバランスが取れるのかはわからない。推論が重いタスクでは安くなるかもしれないし、あまり推論を必要としないタスクではおそらく高くなるだろう。(でも、そういう場合はCodexを使うけどね ;)
> Opus 4.7(適応推論、最大努力)のコストは約$4,406で、人工分析知能指数を運用するのにかかります。これは、Opus 4.6(適応推論、最大努力、約$4,970)よりも約11%安いのに、スコアは4ポイント高いです。これは新しいトークナイザーを考慮しても、出力トークンの使用量が少ないことが原因です。この指標にはキャッシュされた入力トークンの割引は含まれていませんが、近いうちにコスト計算に組み込む予定です。