OpenAIがAPIでGPT-5.5およびGPT-5.5 Proをリリース

8時間前原文(developers.openai.com)

概要

2026年4月にGPT-5.5がリリースされ、プロフェッショナル用途に特化
1Mトークンのコンテキストウィンドウ、画像入力、構造化出力、関数呼び出しなど、幅広い機能を搭載
GPT-5.5 proは高難度タスク向けにResponses APIで利用可能
GPT Image 2やSora APIなど、画像生成・動画生成機能も大幅強化
APIやSDKのアップデートで、エージェント制御やキャッシュ性能、セキュリティも向上

GPT-5.5のリリースと主な特徴

GPT-5.5は、複雑なプロフェッショナル業務向けの最先端モデル
- Chat Completions APIとResponses APIで利用可能
- GPT-5.5 proは、より多くの計算資源が必要な高難度タスク向け
1Mトークンのコンテキストウィンドウ対応
画像入力、構造化出力、関数呼び出し、プロンプトキャッシュ、バッチ処理、ツール検索、組み込みコンピュータ利用、ホステッドシェル、パッチ適用、Skills、MCP、Web検索に対応
推論エフォートはデフォルトで「中」に設定
image_detailが未設定またはautoの場合、従来通りの動作
プロンプトキャッシュは拡張プロンプトキャッシュのみ対応（インメモリキャッシュは非対応）

GPT Image 2のリリース

GPT Image 2は最先端の画像生成・編集モデル
- 柔軟な画像サイズ、高忠実度画像入力、トークンベースの画像課金、**バッチAPIサポート（50%割引）**に対応

Agents SDKのアップデート

エージェントの制御サンドボックス実行対応
オープンソースハーネスの検査・カスタマイズが可能
メモリ作成タイミング・保存場所の制御が可能

GPT-5.4 mini / nanoのリリース

GPT-5.4 miniは高速・高効率モデルで大量処理向け
- ツール検索、組み込みコンピュータ利用、コンパクション対応
GPT-5.4 nanoはシンプルな大量タスク向けで速度・コスト重視
- コンパクションのみ対応、ツール検索・コンピュータ利用は非対応

Sora APIの拡張

再利用可能なキャラクター参照、最長20秒の動画生成、1080p出力、動画拡張機能、バッチAPIサポートなどを追加

その他主要アップデート

入力ファイル形式の拡張（ドキュメント、スプレッドシート、コード等）
WebSocketモードの追加
Skillsやホステッドシェル、ネットワーク機能のサポート
推論スタックの最適化で高速化（GPT-5.2系は約40%高速化）
Open Responses：マルチプロバイダ対応のオープンソース仕様発表
エンタープライズ向けキー管理（EKM）やIP許可リストによるセキュリティ強化
コネクタによるGoogle Apps、Dropboxなど外部サービス連携機能
**長期会話管理API（Conversations API）**のリリース

まとめ

GPT-5.5をはじめとする最新モデル群は、業務用途や開発用途での生産性・効率性を大幅に向上
画像・動画生成、API拡張、セキュリティ強化など、エンタープライズから開発者まで幅広いニーズに対応
各種アップデートにより、実装の柔軟性、コストパフォーマンス、ユーザー体験が大きく進化

Hackerたちの意見

へぇ、昨日はこう言ってたのにね。 >「APIのデプロイには異なる安全対策が必要で、スケールで提供するための安全性とセキュリティ要件について、パートナーや顧客と密に連携しています。」で、今これだ。1日で「すぐに」って言うのも納得だけど、これって安全対策やセキュリティ要件にどう影響するんだろうね。

└

安全について容赦なく嘘をついてきた同じ人がまだ会社を運営してるから、今後も何か変わるとは思えないな。前の例を挙げると、 >「2023年、会社はGPT-4 Turboモデルのリリース準備をしていた。サツケバーがメモで詳しく説明しているように、オルトマンはムラティにそのモデルには安全承認が必要ないと言ったらしい。会社の一般顧問であるジェイソン・クウォンを引用して。でも、彼女がSlackでクウォンに聞いたら、彼は『うーん…サムがその印象を持った理由が分からない』って返事した。オルトマンがOpenAIにとって安全がどれだけ重要かについて、完全に正直じゃなかったケースがたくさんある。」 https://www.newyorker.com/magazine/2026/04/13/sam-altman-may... (https://archive.is/a2vqW)

└

GPT-5.5がすでにCodex専用のAPIで利用可能だったってことが、彼らが明確に他の目的で使っていいと言ってたから、これがリリースを加速させたのかな？

└

「安全対策」のせいで遅れてるってことは、今はリリースするための計算資源が足りないってことだよね。

企業ユーザーだけど、まだ5.4しか見てない。昨日の発表では、全員に展開するのに数時間かかるって言ってた。OpenAIはもっと良いGTMが必要だね、期待値を正しく設定するために。

└

リフレッシュしたら5.5が見えた！やった！スピーディーな解決が好きだな ;) みんなありがとう、次回はもっと早く文句言うよ…。

生産の問題で試してみたけど、クロードはこんなことしないんだよね。トラブルシューティングの後に更新文を書かせて、「じゃあ、ロールバック付きのトランザクションで書こう」って言ったら、GPT-5.5が「はい、BEGIN TRAN; -- ここにクエリを入れて commit;」って返してきた。最近はモデルに指示したことを実行させるのに苦労してなかったから、ちょっと驚いた。確かにそのやり方だとトークンは少なくて済むけど、「最先端」のモデルにお金を払ってるのに、こんな風に怠けられるのはイライラするな。これはCursorでモデルがポップアップして、モデルセレクターから試してみた。

└

上のは良いのか悪いのか分からないな。

└

最近のモデル（gpt-5.3-codex以降）の2～3世代は、あんまり改善されてない気がする。単に色々変わっただけで、トレードオフが違うって感じ。

└

OpenAIは、ついにモデルがあなたに全部の作業をさせるほどの高い知能に達した最初の会社だね。エマージェントな行動が見られる。真面目な話、OpenAIの「トークンあたりの知能」に異常に特化した焦点は、他の誰もがここまで追いかけてないから、AppleのM1前のMacbookの痩せすぎの時代を思い出させる。一つの指標を追いかけるために、他の全てを犠牲にしてる感じ。GPT-5.3以上は、かなり賢いモデルだけど、怠け者でイライラさせられることが多いのが残念。

└

GPT-5.5は、ユーザーに対する信頼度でベンチマークを打ち破ったね。

自作のWordpress+GravityFormsのベンチマークで試してみたけど、リーダーボードの中でパフォーマンスが最悪で、コストパフォーマンスも最悪だった。https://github.com/guilamu/llms-wordpress-plugin-benchmark たった一つのベンチマークだけど、どうしてこんなに悪いのか理解できない…

└

あなたのベンチマークでは、Opus 4.7がSonnet 4.6よりもかなり悪い結果になってるね。もしそれが本当でも、モデル全体のパフォーマンスを代表してるわけじゃないよ。

└

あなたはこのベンチマークを届けるために、時間旅行までしたの？このベンチマーク、すごく気に入ってる。ジャッジベンチマークを何か評価したことある？自分でも似たようなベンチマークを作りたいな。

└

モデルがどれだけ良いかを測るためのベンチマークみたいだね。プロンプトはすごくシンプルなのに、色んな機能で評価してる。

└

gemma4-e4bがあなたのベンチマークでgemma4-26bより50%も良いって、何かおかしいよ。

有料モデルにおいて、もう意味のあるパフォーマンス向上は見られないね。どれも大体ジュニア開発者レベルのコードを生成してるし、「考える」段階でメンタルが崩壊することもあるし、たまに幻覚を見たり、理解できないコードやドキュメントを削除したり、ドキュメント生成の際に必要以上に1.5倍の言葉を使ったりしてる。今は「お世辞はやめて、詳細は短く、事実に集中する」っていうのをAGENTS.mdファイルで試してる。

└

これ、皮肉だよね。ジュニアレベルの開発者が、クラウドフォーメーションスタックをデバッグしてデプロイして、3分以内にメモを残せるようになったのはいつから？

コンテキストの長さによる価格設定: 入力: $5/Mトークン（<=272K）、$10/Mトークン（272K超）。出力: $30/Mトークン（<=272K）、$45/Mトークン（272K超）。キャッシュ読み込み: $0.50/Mトークン（<=272K）、$1/Mトークン（272K超）。272Kを超えるとOpus 4.7よりずっと高くて、少なくとも私のタスクでは、そのモデルがそんなにトークン効率が良いとは思えない。確かにこの差を埋めるほどではない。GPT-5.4は400kでしっかりしたコンテキストウィンドウを持っていて、信頼できる圧縮があったけど、両方とも少し後退しているように見える。圧縮があまり信頼できないかどうかはまだ早いけどね。それに、フロントエンドの出力は、あの非常に独特で目立つ、カードが多くてブルージーな色合いのテンプレートに偏っているのが気になる。GPT-5のリリース前にHorizon Alpha/Betaに懐疑的だった理由だよ。タスクの遵守には素晴らしかったけど、その一つの大きな欠点を除けば非常に役立った。GPT-5.5がその分野でまだ制限されているのは、全く新しい基盤だと言われているのに変だね。

GPT 5.5とCodexの組み合わせは本当に良いよ。質問をしたり、計画を立てたり、コードを実装したりする時に全く疑いがない。Opus 4.7だと、CLAUDE.mdの指示に従わないから、何度も確認しなきゃいけないし、幻覚を見まくる。答えが見つからないと、勝手に作り上げちゃうんだよね。去年、OpenAIがコードレッドを宣言した時に「もう遅れてる」って言ってた人たちが、今の状況を見てどう思ってるんだろうね。

OpenAIがこの手のニュースでClaudeを貶めてCodexがどれだけ優れているかを言ってるコメントやボットが雇われてるって感じるのは私だけ？あまりにも多すぎて、彼らの意見の中には、Claudeを毎日使ってると納得できないものもあるよ。

GPT 5.5の包括的なコーディング推論ベンチマーク結果がアップされてるよ。https://gertlabs.com/ ライブの意思決定や重いエージェント評価は24時間内に続々アップされるけど、今の時点でリーダーボードの順位が変わるとは思えない。GPT 5.5は最も知的な公開モデルで、前のモデルよりかなり速い。

私のベンチマークで25/25を達成した2番目のモデル（Opus 4.7の後）: https://sql-benchmark.nicklothian.com/?highlight=openai_gpt-... Opusより安くて遅い。

ハクソク