世界を動かす技術を、日本語で。

GPT-5.5の価格上昇:そのコストとは

概要

  • GPT-5.5 の料金が 2倍 に値上げ
  • 出力トークン数 が長文プロンプトで 19〜34%削減
  • 実際のコスト増加は 49〜92%
  • 短いプロンプトでは コスト効率悪化
  • 同一ユーザーによる 比較分析 を実施

GPT-5.5価格改定と実コスト影響

  • GPT-5.5GPT-5.4 と比べて 入力トークン単価が$2.50/Mから$5.00/M出力トークン単価が$15/Mから$30/M に上昇
  • OpenAI は「 冗長性が減少し、同じタスクでも短い出力」と説明
  • Opus 4.7 時と同様、 5.4から5.5へ移行したユーザー を対象に 実コスト比較
  • コスト増加幅は49%〜92% で推移
  • 長文プロンプト では 19〜34%出力トークン削減 により一部コスト増を緩和
  • 短文プロンプト では出力トークン数が減少せず、コスト増加が顕著

分析手法と検証方法

  • Opus 4.7分析 と同じ「 スイッチャーコホート」手法を採用
    • GPT-5.4 を主に使っていたユーザーが GPT-5.5 へ移行したケースを抽出
    • ユーザー・ワークフロー・トークナイザー は同一条件
  • OpenRouterトークンカウント を基準に比較
  • プロンプト長別 に、出力トークン数とコストを集計

出力トークン長の変化

  • 10Kトークン以上の長文19〜34%出力トークン減少
  • 2Kトークン未満 では 出力長ほぼ変化なし
  • 2K〜10Kトークン では 52%出力増加 という逆転現象も観測

実コストの詳細

  • プロンプト長別のコスト比較(1M OpenRouterトークンあたり)
    • <2Kトークン :$4.89(5.4)→$9.37(5.5)、 +92%
    • 2K〜10Kトークン :$2.25→$3.81、 +69%
    • 10K〜25Kトークン :$1.42→$2.15、 +51%
    • 25K〜50Kトークン :$1.02→$1.65、 +62%
    • 50K〜128Kトークン :$0.74→$1.10、 +49%
    • 128K+トークン :$0.71→$1.31、 +85%
  • 長文プロンプト では出力短縮によるコスト増緩和
  • 短文プロンプト ではコスト増加が顕著

分析条件・データソース

  • データ出典 :OpenRouterリクエストログ
  • コホート :GPT-5.4からGPT-5.5に乗り換えたユーザー
  • サンプル :テキストのみ、キャンセルなしリクエスト
  • 期間 :GPT-5.4(2026年4月21~23日)、GPT-5.5(2026年4月25~28日、ローンチ日除く)
  • 正規化 :OpenRouterトークン単位でプロンプト長ごとにバケット化
  • 除外条件 :メディア(画像・音声・動画・ファイル)、キャンセル、ゼロトークンリクエスト

まとめ

  • GPT-5.5値上げ出力長短縮 により、 長文プロンプト ではコスト増を緩和
  • 短文プロンプト では 大幅なコスト増 が発生
  • 利用パターンによってコスト効率が大きく変動

Hackerたちの意見

これって、ターン数を全然考慮してないように見えるけど、何か見落としてる?タスクを達成するのに少ないターンで済む強力なモデルって、エージェントコーディングの効率向上にとって重要な要素だと思うんだけど、個々のレスポンスが短いよりもね。

サンプルサイズや入力とレスポンスの長さの分布についても言及してないよね。もし著者がデータをプロットしてくれたら、分布がどうなってるのか見てみたいな。ggplot2のgeom_densityを使って、モデルごとに色と塗りつぶしを設定して、0.1のアルファと適切なバンド幅調整をすれば、入力データの分布が二つのモデルで似てるかどうか分かるし、出力長の分布も同じように入力長のビンでファセット化すれば、そっちも似てるかどうか分かると思う。編集:出力長/入力長の入力ビンを使ったファセットプロットでもいいかも。

目標に対してテストすべきだと思う。例えば、「このパズルを解け」とか「このコードを直してテストを通せ」とかね。(人間が確認できるから、インチキはないよ)。

OpenRouterは何百ものリクエストを投げられるかもしれないけど、「午後4時のこの50件のリクエストはタスクA用」、「あの100件のリクエストはタスクB用」とか、そういうことは全然わからないんだ。だから「全体のリクエストの形状」レベルでの浅い分析になってる。

2023年以降、価格と「出力」を時間ごとにグラフにしたハッカーっている?「品質」を考慮に入れると、かなり難しい分析になりそうだけど、きっとそれを明確にしようとしてる人もいるはず。

品質って、与えられたベンチマークに対するパフォーマンスのことだよね?家の標準的なコンピュータで動かせるオープンウェイトモデルがいくつかあって、GPT-4の品質に匹敵するんだ。これも方程式を変える要素になると思う。

プロプライエタリモデルを比較するものは、かなり誤った調整になってるだろうし、指標にならないかも。チャットやAPIでモデルの変更が多すぎて、モデル提供者が気づく前に変わっちゃったこともあったし。

人工分析には知能のベンチマークがあるよね。

最近のLLMの進化って、直感的な質的飛躍を提供してない気がする。もうボトルネックに入っちゃったのかな?

僕の考えでは、需要も増えてるから、モデルの品質を少しずつ改善しつつ、推論コストの改善に集中してるのかも。価格は上がってるけど、たとえ非常に効率的なモデルを実現しても、まだ赤字で売ってるからね。

5.5は5.4や5.3とは質的に違うと思う。違いを一言で言うなら、5.5はこっちが求めてることをもっとちゃんとやってくれる感じ。5.4は「続けて」って言わないといけなかったけど、5.5はちょっと「わかってる」って感じ。結局、値段は高いけど、5.4や5.3を高めに使うより、5.5を低めで使いたいな。

gpt-5.5をxhigh reasoningで動かしてるの? 5.4のxhighと比べて明らかに違いが見えるんだけど。

自分の使い方(ウェブアプリ)を考えると、Opus 4.5でできないことはもうなかったし、他のリリースでも同じことが言えると思う。多くの人が質的な飛躍を感じなくなる時期が来るかもしれないし、もう来てるかも。これは必ずしもパワーのボトルネックを意味するわけじゃなくて、使い方(特に簡単なもの)はすでにカバーされてるかもしれない。

小さなモデルの限界が指数関数的に上がっていくのを見るのは嬉しいね。「ベンチマークが1%改善されたからモデルを持続不可能なほど大きくする」っていうやり方は終わりを迎えてると思う。小さなモデルを強化するものが、LLMを実際に役立つものにすると思う。要は研究が大事だね。

彼らはAnthropicと同じ計算制約のシナリオに入ったんじゃないかな。つまり、100の計算ユニットがあって、需要は200ユニット。もっと計算を買ったり、価格を上げたり、制限を下げたりしなきゃいけない。

Azureが最近gpt-4.1モデルを廃止したんだよね。これを使えなくなって、gpt-5*モデルに移行したけど、こっちの方が失敗が多くて精度も低くて、しかも高くつくんだ。高校レベルのプロンプトから低学年向けのプロンプトに、非gptモデルを使ってシステム全体を作り直さなきゃいけなかった。モデルはずいぶん前からボトルネックに入ってると思う。個人的には、今のモデルはコーディングや「エージェント」機能に特化しすぎて、他の分野での一般的な能力が犠牲になってる気がする。

GPT-5.5はCodexや他のハーネスと一緒に使うとかなりの進化を感じるよ。Opus 4.7はどうやって使うのか全然わからない… 一日か二日試してみたけど、リリース以来毎週数時間使ってるけど、まだ4.6をメインで使ってる(xhi思考で)。

シニカルだと思われるかもしれないけど、私にとってはほとんど価格の変更に過ぎないし、品質の変化はほとんど感じられない。数回の反復の後、実際のコストに近づくと思ってる。

トークン効率のステップチェンジには見えるけど、以前の人工分析によると、コストのばらつきもかなりあるみたいで、それにはあまり安心できないな。

ベンチマークを走らせるのに約3.5倍のコストがかかる。[0]: https://aibenchy.com/compare/openai-gpt-5-4-medium/openai-gp...

確かに、テストでは良い結果が出たから、OpenAIの主張と一致してるね。お金をかける価値があるってこと。面白いことに、君のテストを比較に使うと、5.5の低設定は5.4の中設定を82%のコストで上回ってるよ。[0] [0]: https://aibenchy.com/compare/openai-gpt-5-4-medium/openai-gp...

実際のエンジニアリングタスクを完了するための総コストに対してパフォーマンスを追跡してるんだ。トークンあたりのコストじゃなくてね。[1] トークンあたりのコストは少し誤解を招くことがある。というのも、他の人も言ってるように、異なるモデルがトークンを使う方法が違うから。(余談だけど、これがTPSがあまり良い指標じゃない理由でもある)。5.5は全体的に1.5~2倍高いってわかったよ。「パレート原則」で見ると、5.5のxhighは価値がある。ただし、低い推論レベルでは、5.4がコストパフォーマンスで勝ってる。うちは仕様主導のアプローチで、主にTS(製品開発)で作業してるから、もっと操作的なアプローチを使ったり、別の分野で働いてる場合は、結果が変わるかもね。[1] https://voratiq.com/leaderboard?x=cost

面白いね!自分でも似たような評価システムを作ろうと思ってたんだ。エージェントタスクの調整はどうやってるの?モデルがほぼ求めてるものに近づいたとき、元の応答に対してちょっとしたフォローアッププロンプトが必要な場合は?

他のラボの情報も見てみたいな: - deepseek v4 pro - glm 5.1 - kimi k2.6 - qwen 3.6 max - xiaomi 2.5 pro - minimax 2.7 - grok

あなたの評価がこんな感じなのはちょっと変な気がする: gpt-5-4-high > gpt-5-4-xhigh gpt-5-4-high > gpt-5-5-high gpt-5-4 > gpt-5-5 gpt-5-2-high > gpt-5-2-xhigh 他の評価ではこんなの見たことないよ。

でも、xhighを有効にするにはどんな状況が良さそう?

GPT 5.5の長期的なエージェンティックコーディングでは、出力が少し小さくなったけど、全体のレスポンススコアは大幅に改善されたよ。一発コーディングのレスポンスでは、GPT 5.5は実際にGPT 5.4よりも冗長だったけど、やっぱりレスポンスはかなり強かった。OpenRouterが報告している予想コストの増加は、まあまあ正確だと思う(ちょっと楽観的かも)。でも、個人的には十分に価値があると思う。GPT 5.5は、複雑なシナリオを理解する能力で2位のモデルにかなり差をつけてるね。ランキングは https://gertlabs.com/rankings?mode=agentic_coding で見てみて。下の効率チャートもチェックしてね。

最近のモデルは、顧客向けのエージェンティックワークフローには高すぎると思う。

新しいモデルのリリースは、今や新しいiPhoneみたいだね。ほとんど気づかない改善があって、価格が高くなるだけ。オープンソースの大きな利点の一つは、使っているモデルを「フリーズ」できること。よく知っているモデルの方が、毎回大きなアップデートでゼロから始めなきゃいけないような、十分に違うモデルよりも勝つことが多い。ほとんどのビジネスは、限られた証拠しかない中で、最先端よりもコスト管理と予測可能性を重視するよね。

本当に悪い比較だね。もしiPhoneのアップグレードを2モデル飛ばしたら、使った感じには確実に違いがあるし、それにお金を払う価値があるって感じるよ。今のフロンティアモデルのアップグレードを2モデル飛ばしたら、違いが分かるかどうかも疑わしいし、何にお金を払ってるのかも分からないと思う。