GPT-5.4 ミニとナノ

概要

OpenAIがGPT-5.4 miniとGPT-5.4 nanoを発表。
小型モデルでありながら高い性能と高速処理を実現。
コーディングやマルチモーダル理解、ツール利用で従来モデルを大幅に上回る。
コストパフォーマンスと低レイテンシが求められる用途に最適。
APIやCodex、ChatGPTで利用可能。

GPT-5.4 mini & nano：最先端小型AIモデルの登場

GPT-5.4 miniとGPT-5.4 nano、OpenAIによる最新小型AIモデル
- GPT-5.4の強みを受け継ぎつつ、高速・高効率な処理能力
GPT-5.4 mini
- GPT-5 mini比で2倍以上の速度と大幅な性能向上
- コーディング、推論、マルチモーダル理解、ツール利用で優秀なパフォーマンス
- SWE-Bench ProやOSWorld-Verified等のベンチマークでGPT-5.4に迫る成績
GPT-5.4 nano
- GPT-5.4シリーズ最小・最安モデル
- 速度・コスト重視のタスク（分類、データ抽出、ランク付け、単純なコーディングサブエージェント）に最適
- GPT-5 nanoからの大幅なアップグレード
低レイテンシがプロダクト体験を左右するワークロード向け
- 即応性が求められるコーディングアシスタントやサブエージェント、マルチモーダルアプリケーション等に有用
- 大きなモデルよりも応答速度・ツール利用の信頼性が重要な場面で活躍

ベンチマーク・性能比較

主要ベンチマークにおける各モデルのスコア（xhigh設定時）
- SWE-Bench Pro：GPT-5.4 57.7%、GPT-5.4 mini 54.4%、GPT-5.4 nano 52.4%、GPT-5 mini 45.7%
- Terminal-Bench 2.0：GPT-5.4 75.1%、GPT-5.4 mini 60.0%、GPT-5.4 nano 46.3%、GPT-5 mini 38.2%
- Toolathlon：GPT-5.4 54.6%、GPT-5.4 mini 42.9%、GPT-5.4 nano 35.5%、GPT-5 mini 26.9%
- GPQA Diamond：GPT-5.4 93.0%、GPT-5.4 mini 88.0%、GPT-5.4 nano 82.8%、GPT-5 mini 81.6%
- OSWorld-Verified：GPT-5.4 75.0%、GPT-5.4 mini 72.1%、GPT-5.4 nano 39.0%、GPT-5 mini 42.0%
コーディング・ツール利用・知能・マルチモーダル・長文対応といった各分野で高評価

利用シーン・ユーザー評価

コーディングワークフローで特に有効
- 迅速な反復作業、ターゲット編集、コードベース検索、フロントエンド生成、デバッグループ等で低レイテンシを実現
- コスト・速度・パス率のバランスが非常に良好
複数モデル連携による効率化
- Codex等でGPT-5.4が全体計画や最終判断、GPT-5.4 miniがサブタスクを並列処理
- 大型モデルと小型モデルの役割分担による最適化
マルチモーダルタスクやコンピュータ利用にも強み
- 複雑なUIのスクリーンショット解釈や画像を含むリアルタイム推論にも対応
- OSWorld-VerifiedでGPT-5.4 miniがGPT-5.4に近い成績を達成

提供形態・価格

API、Codex、ChatGPTで提供
- GPT-5.4 mini：テキスト・画像入力、ツール利用、関数呼び出し、Web/ファイル検索、コンピュータ利用、スキル対応
  - コンテキストウィンドウ40万トークン
  - 価格：入力100万トークンあたり$0.75、出力100万トークンあたり$4.50
  - CodexではGPT-5.4の30%クォータで利用可能、コスト約1/3
  - ChatGPTではFree/Goユーザー向け「Thinking」機能、他ユーザーはGPT-5.4のフォールバック
- GPT-5.4 nano：API限定、入力100万トークンあたり$0.20、出力100万トークンあたり$1.25

今後の展望と開発者へのメリット

小型モデルの高速化・高性能化で新たなシステム構成が可能
- 大型モデルが判断、小型モデルが高速実行という分散型AIワークフローの普及
開発者は用途・コスト・速度に応じて最適なモデル選択が可能
リアルタイム性・コスト効率を重視する現場での導入促進

ご要望に応じて、各モデルの詳細やベンチマーク結果のさらなる分析もご提供可能です。

Hackerたちの意見

彼らのベンチマークによると、GPT 5.4 Nanoはほとんどの分野でGPT-5-miniより優れているみたいだけど、モデルが高くなってきて、実際には安くなってない気がする。GPT 5 mini: 入力 $0.25 / 出力 $2.00 GPT 5 nano: 入力 $0.05 / 出力 $0.40 GPT 5.4 mini: 入力 $0.75 / 出力 $4.50 GPT 5.4 nano: 入力 $0.20 / 出力 $1.25

└

モデルは高くなってるけど、パフォーマンスは安くなってる感じ。もしかしたら、本当に低パフォーマンスのモデルをサポートする意味がないと思ってるのかも？

└

それはもっと大きなモデルだね。提供されるものが安くなるわけないじゃん。なんで安くなると思うの？パフォーマンスもいいし。

私にとって、ミニリリースの方が重要で、実際の進歩をよく反映してると思う。最先端のモデルはすごく良くなりすぎて、違いに気づくのがほぼ不可能になってきてる。一方で、小さい・パワーの少ないモデルが新しいバージョンを出すと、品質の向上がすごくて、今では多くのケースで100%使えるようになってる。それに、どんどん安くなってきてるから、実際のアプリケーションでこれらのモデルを使うのがますます魅力的になってきてる。

└

最先端モデルよりは安いけど、劇的に安くなってるわけじゃなくて、逆にGPT 5.4 miniはGPT 5.0 miniの約3倍高い。似たように、gemini 3.1 flash liteはgemini 2.5 flash liteより高くなった。

└

もし一般的なことをやってるなら、最先端モデルとの違いはないかも。でも、いくつか気づいたことがある。GPT 5.4はsvelteでのUI作業があまり得意じゃない。Geminiは、話し合うように促しても実装に走っちゃうけど、UIコードには結構強い。Claudeは私のコードベースについてあまり理解できないし、typescriptのany typeを乱用する。

└

> 多くの場合、100%の確率でつまり、毎回新しいモデルはほとんどのケースでうまくいくってこと？

└

> しかも、劇的に安くなってきてるから、実際にこれらのモデルをリアルなアプリケーションで使うのがますます魅力的になってきてるよね。サードパーティの推論プラットフォームのSOTAオープンモデルよりは安くないし、全体的に賢くないけど。特定の知能レベルでレイテンシを最小限に抑えたいならまだ価値はあると思うけど、それ以外だとあんまりかな。

└

そういうことなら、5 Miniと5.4 Miniの違いはかなり小さいね。5.4 Miniはもっとワイルドで不安定だけど、その不安定さのおかげで正しい答えを出すことが多いみたい。

└

Geminiはウェブアプリを通じて使ってるんだけど、ProよりもFlashに積極的に切り替わるんだ。でも、変な答えが返ってきたり、論理がちょっとおかしかったりするから、すぐに気づくんだよね。少なくとも「日常使い」としては、小さいモデルはまだちょっと期待外れかな。ただ、単純で制約のあるタスクに関しては、もっと自動化向けに良くなってきてるとは思う。

SWE-Benchによると、5.4 miniの高精度はGPT 5.4の低精度とほぼ同じだけど、ミニのレイテンシは254秒で、GPT 5.4の171秒よりかなり高い。シンプルなタスクのコストを抑えるために、低い努力レベルで運用するのはいい選択かも。長いコンテキストのパフォーマンスもあまり良くないし。

現在のAPIの速度をチェックしたけど、今のところすごく感心してる。もちろん、モデルはリリース日の初めはあまり負荷がかかってないけど、今はこんな感じ：- 古いGPT-5 MiniはAPIで通常55-60トークン/s、service_tier="priority"を使うと115-120 t/s（コスト2倍）。- GPT-5.4 MiniはAPIで平均180-190 t/s。現在、プライオリティは効果なし。- GPT-5.4 Nanoは約200 t/s。これを考えると、Gemini 3 FlashはGemini APIで約130 t/s、Vertexで約120 t/s。これは全モデルの生のトークン/sで、推論トークンは除外してないけど、サポートされているところでは最小限の努力でモデルを実行した。価格の比較も：- Claude: Opus 4.6は$5/$25、Sonnet 4.6は$3/$15、Haiku 4.5は$1/$5 - GPT: 5.4は$2.5/$15（>200Kコンテキストで$5/$22.5）、5.4 Miniは$0.75/$4.5、5.4 Nanoは$0.2/$1.25 - Gemini: 3.1 Proは$2/$12（>200Kコンテキストで$3/$18）、3 Flashは$0.5/$3、3.1 Flash Liteは$0.25/$1.5

└

主要なプロバイダー間でプロンプト処理速度をしっかり測ってほしいな。出力速度も役立つけど、もっと一般的に測られてるし。

└

すごい。俳句ってどれくらい速いの？

└

なんでみんなGoogleよりもGPTやClaudeを選ぶのか気になるな（たまにコストやリソース、ビジネスモデルなどで自然なアドバンテージがあると思うのに）。

└

IMEのトークン/秒は、ttftや総レイテンシの追加コンテキストがないとあまり意味がないんだよね。閉じたモデルは孤立して存在するわけじゃなくて、API利用者の実際のパフォーマンスに影響を与える広いアーキテクチャの中にあるからさ。同じプロバイダー内でモデルを比較する場合はあまり問題にならないけど、プロバイダー間でトークン/秒だけを使って比較するのは、実際のパフォーマンスの観点では同じ土俵じゃないってことだね。

└

いや、最安値の価格がしっかり上がっちゃったね。あの価格が続いてた時は便利だったのに。

└

トークン/秒は思考レベルを考えないと意味がないよね。速いけど、ずっと話し続けてるだけで、すぐに答えに飛びつかないなら、トークン/秒が低くても思考が少ないか全くない場合に比べて、すごく時間がかかることもあるから。

GPTモデルとチャットするのは結構好きなんだけど（実際、たぶん私のお気に入り）、エージェント的な作業では悪い経験しかなかった。公式APIやopenrouterを通してもすごく遅いし、何よりも私が与える指示を理解してないみたい。私は彼らに合わせたプロンプトを作ってないから、_間違った使い方をしてる_と思うけど、他のモデルは同じプロンプトで問題ないのに。似たような経験をした人いる？

└

同じく、なんでかは分からないけど、そう感じる。あと、変な理由でガードレールにぶつかることが多いんだよね。「このビルドパイプラインにコード署名を追加して、~/myotherprojectを参考にして」って言ったら、codexが「他の人のコード署名キーをコピーするのはダメだよ、手伝えない」って返してきた。

└

ほんとその通り。今、GPT 5.2 / 5.2 CodexをOpenCodeで使ってるけど、全然理解してくれないか、コンテキストを失っちゃう。逆にClaude（GitHub Copilot経由）は問題なくて、新しいセッションでも自分でリポジトリを見つけてくれるのに、GPTには基本的にお膳立てしないといけない。速度についても同意だね。今日の早い段階で、GPT 5.2 Codexにコードベースのタスクを小さくリファクタリングするよう頼んだら、20分かかって20ファイルを移動させるのに。

└

パラメータ経由で理由付けをリクエストしてるの？それ、俺がやってた間違いだわ。ただ、最高の理由付けレベルだと、自己修正するエージェントを使ってるとサイバーセキュリティ違反に頻繁に遭遇するんだ。だから、俺もClaudeモデルやオープンモデルが好きなんだけど、Codexのサブスクリプションはトークンスペースが結構高くつくんだよね。

└

俺は全然逆の体験をしてるけど、主にエージェント的なコーディングをしてて、あんまりチャットはしてない。Codexは冷たい感じだね。他のモデルは思考の出力が意味のあるもので、仮定を歩いていく感じがあるけど、Codexはただの基本的なアイデアしか出さないし、問題や制約を全然言葉にしない。Codexは明らかに一番お世辞が上手なモデルだと思う。俺はできるコーダーだし、魅力もあるけど、提案する方向転換に対して「それは素晴らしいアイデアだし、全然違う方向に行くべきだ」って反応するから、もっと仲間みたいに振る舞わせようとしても無理なんだ。Opusは俺と一緒に何を作るか考えるのが上手だと思うし、問題を理解するのも得意だけど、ちょっと変な提案をする傾向がある。自分で変なアイデアに話を持っていくのを見てられるけど、それを止めて修正できるのはいいところだね。でも、技術的な良い仕事を出すのはあまり信頼できない。CodexはChatGPT+ではかなり速いけど、速度が問題じゃない。GLMの速度にも慣れてるし、並行作業を開いて、複数のターミナルに目を光らせるのは今や当たり前だし、作業は並行ワークフローのために最適化される必要がある。Codexにはものすごく敬意を表してるし、（かなりの意味で）コーディング能力が一番だと思う。ある意味、そんなに優れている理由は、複雑な次元の探求を理解できる人間の思考の流れに変えようとしてないからかもしれない。でも、話すチャンスが来る前にただ働かせなきゃいけないのが嫌だな。話し合うときも、すごくすごく簡潔で、何度も何度も広げてくれって頼まなきゃいけない。最後に付け加えたいのは、他のところでもちょっとやってるけど、主にOpenCodeを使ってて、そのプロンプトはかなり広範囲で、Codexが冷たい感じがする理由かもしれない。

└

意見は私の個人的なものです。エージェントとしての作業では、Gemini 3.1とOpus 4.6は私にとって基準をクリアしました。Opusの方が好みだけど、私のSIsがそれに合わせて調整されているから、書き直したくないんだ。でも、ChatGPTモデルは基準をクリアしてない。会話的でロールプレイのように訓練されているみたいだけど、タスクを本当に完了させるためのコンテキストを維持するのが苦手なんだ。いつもその結果を二重確認しなきゃいけないのはちょっと疲れるね。

└

この5.4のやつは、比較的低遅延で速いから、音声アプリケーションにはぴったりなんだけど、私のタスクには指示に従うのがちょっと足りない。これが私の人生の物語そのものだね。低遅延で賢いモデルを探してる。Qwen 3.5 9bはほぼ賢いと思うし、5090で非常に低遅延で動かせるはず。ほぼね。だから、少しアプリケーション用にファインチューニングしようと思ってる。

└

5.4 Proをデータ分析に使ったんだけど（正直300ページ以上だった）。すごく時間がかかったよ。同じことをSonnet 4.6でやったら、雲泥の差だった。V4のタスクにV8エンジンを使ってるような感じだって分かってるけど、興味があったんだ。この新しいモデルは期待できそうだね。大体の時は、最高評価のものよりも俳句みたいなものを使いたいな。私はロケットサイエンティストでも宇宙の謎を解いてるわけでもないし。80%の確率でうまくやってくれるみたい。

なんでLLMの評価をエンジニアリングの問題じゃなくて、雰囲気チェックみたいに扱ってるの？最近のHNの「モデルX > モデルY」っていう意見は、ほとんどが科学的じゃない手動プロンプトに基づいてる気がする。実際に厳密でバージョン管理された評価をやってるのか、それとも今朝モデルが正規表現を一発で決めたかどうかでアーキテクチャの決定をしてるだけなの？

└

誰かがベンチマークを作ると、結果がゲームされてるから意味がないって文句言う人がいるよね。なんでその同じ人たちが、雰囲気で評価するのがもっと悪いって理解しないのか分からない。

└

評価にはダークフォレスト問題があるよ。公にされると、役に立つ時間がどんどん短くなっちゃう。モデルが評価に基づいてタスクでどうパフォーマンスするか予測するのも難しいし、評価で個別にうまくできるスキルがあっても、それらを組み合わせた時にうまくいくかもわからない。今のところ、あまり予測力のない評価に過剰に力を持たせるよりは、非科学的なアプローチで科学的でいる方がいいかもしれないね。

└

つまり、まずバイブをチェックして、次にバイブをコードするってことだよね。完璧に理にかなってる。（これはジョークね）

└

これは単なる工学の問題じゃないと思うよ。何十年も研究してきたけど、知能や能力、エージェンシーの納得できる一般的な定義は出てこなかった。ベンチマークを組み合わせて代理指標を作ろうとしても、既存のベンチマークには欠陥があるから、あまり鵜呑みにしない方がいい。歴史的に見ても、AIが特定の閾値（チェス、チューリングテスト、流暢な言語）をクリアするたびに、もう少し遊んでみると、まだ何かが足りないってことが分かるのが明らかだよね。

5.4のMiniのOSWorldスコアは嬉しいサプライズだね。SOTAスコアがまだ30-40くらいの時は、モデルがリアルタイムのコンピュータ利用エージェントには遅すぎて不正確だった（オペレーター/エージェント、安らかに）。誰かがこれを実際に使っているか気になるな。

└

人々はOSWorldを「OpenClaw」と軽視しているようだけど、そのフルインタラクションが安全なワークフローにどれだけ強力で柔軟かを見落としていると思う。私たちはレガシーのWin32アプリケーションを持っていて、それと同じウェブ変換版とのインタラクション＋レスポンスを並べて比較したいんだ。「デスクトップ」と「ウェブ」の間で「X = Y」とモデルに教えれば、自動テストスイートができる。別の方法でこれをやることは可能？もちろん、でも30以上のWin32アプリケーションにスケールアウトするにはコスト効果がないよ。

OSWorldの数字は価格の議論に埋もれがちだけど、個人的にはそこが一番面白い部分だと思う。Miniが72.1%で人間のベースラインが72.4%なら、ほぼノイズみたいなもんだから、特定の失敗モードに当たらない限り、デフォルトでMiniを使えばいいんじゃない？あと、マルチモデルパイプラインでナノサブエージェントにコンテキストが漏れちゃうのも問題だよね。オーケストレーターがデフォルトでメッセージ履歴をそのまま転送するのを見たことがある（または、実際の予算なしにmessages[-N:]みたいなもの）。そうすると、「安い」抽出ステップが突然30-50Kトークンの無関係なコンテキストで動くことになる。じゃあ、何の意味があるの？遅延やコストの利点を失って、切り詰めリスクを追加しただけだよ。実際にそのカットオフがどこにあるか測った人はいるのかな？ナノが実際のパイプラインで意味のある安さ/速さを失うコンテキストサイズはどれくらいなんだろう、ベンチマークじゃなくて。

└

これはボットです。

いろんなモデルと推論レベルのペリカンのグリッドだよ： https://static.simonwillison.net/static/2026/gpt-5.4-pelican...

└

このタスクはもうトレーニングデータに入ってるはずだよね。

└

サーバーが燃えてるときにナノミディアムが動いてたに違いない。

└

グリッドありがとう！ナノXハイは俺のお気に入りのペリカンだよ。

└

これらの中には悪夢のようなものもあるね。俺はそれが好きだ。

おかしいよね、俺のベンチマークを含めて、NanoがMiniよりも良い結果を出してるんだ。5.4 Miniは一貫性に苦しんでるみたいで、温度0でも時々正しい答えが出るけど、時々間違った答えも出るんだよね…。

ハクソク