ハクソク

世界を動かす技術を、日本語で。

GPT-5.5

概要

  • GPT-5.5は、これまでで最も賢く直感的なAIモデルとして登場
  • コーディング、データ分析、ドキュメント作成など多様な業務を効率化
  • 処理速度・効率性を維持しつつ、従来モデルより高い知能を実現
  • 強化された安全対策と幅広いベンチマークでの高評価
  • ChatGPTやCodexでPlus/Pro/Business/Enterpriseユーザー向けに順次展開

GPT-5.5の特徴と進化

  • GPT-5.5は、ユーザーの意図を素早く把握し、自律的に多くの作業を遂行できるAIモデル
  • コーディングの記述・デバッグ、オンラインリサーチ、データ分析、ドキュメントやスプレッドシート作成、ソフトウェア操作など幅広い業務対応力
  • 複雑で多段階なタスクも、計画立案・ツール活用・自己チェック・曖昧さの解消を自動で実行
  • 特にエージェント型コーディング、PC操作、知識労働、科学研究初期段階で大幅な性能向上
  • GPT-5.4と同等の低レイテンシで、より高い知能と効率性を両立
  • 同じCodexタスクを少ないトークン数で完了し、コストパフォーマンスも向上

安全性とリリース体制

  • 最強レベルのセーフガードを導入し、悪用リスクを低減しつつ有益な利用を確保
  • 内部・外部のレッドチームや200名以上の早期アクセスパートナーから実運用フィードバックを収集
  • ChatGPTおよびCodexのPlus/Pro/Business/Enterpriseユーザーに段階的に提供開始
  • API展開には追加のセーフガードが必要なため、パートナー・顧客と連携して安全基準を策定中

ベンチマーク・性能評価

  • Terminal-Bench 2.0で82.7%の最先端精度、計画・反復・ツール連携を要するコマンドライン作業で高評価
  • SWE-Bench Proで58.6%、GitHubの実課題解決で一発完了率向上
  • Expert-SWE(社内評価)でもGPT-5.4を上回るパフォーマンス
  • いずれもトークン消費量削減とスコア向上を両立
  • Codex上では、実装・リファクタ・デバッグ・テスト・バリデーションといったエンジニアリング作業の能力が際立つ

ユーザー・企業の声と実例

  • Every社 CEO Dan Shipper:「初めて本当に概念的な明快さを持つコーディングモデル」
  • MagicPath社 CEO Pietro Schirano:大規模なフロントエンド変更のマージも一発で解決
  • NVIDIAのエンジニア:「GPT-5.5を失うのは手足を失ったような感覚」
  • Cursor社 CEO Michael Truell:「タスク継続性と自律性が大幅向上」
  • OpenAI社内でも85%以上の社員が毎週Codexを活用、業務効率化を実現

知識労働・科学研究への応用

  • ドキュメント生成、スプレッドシート作成、スライド資料作成など、知識労働全般でGPT-5.4を上回る性能
  • GDPvalで84.9%、OSWorld-Verifiedで78.7%、Tau2-bench Telecomで98.0%の最先端スコア
  • FinanceAgentや投資銀行モデル業務、OfficeQA Pro等でも高い評価
  • GeneBenchBixBenchなど科学データ解析分野でも大幅な進歩
  • 内部バージョンは組合せ数学の新証明発見にも貢献

今後の展開とビジョン

  • OpenAIはエージェント型AIのグローバルインフラ構築を推進
  • API展開やさらなる安全対策を進め、より多くの人と企業がAIで業務改革を実現可能に
  • GPT-5.5は単なる高速・高精度コーディングAIに留まらず、新しいPC作業体験を提供する次世代AIとして進化

この内容は、GPT-5.5のリリース概要・技術的進化・ユーザー評価・実運用事例・今後の展望を簡潔かつ体系的にまとめたものです。

Hackerたちの意見

モデルリリースのビンゴカードがあるなら、「今までで一番[形容詞]で[形容詞]なモデル」って絶対フリースペースだよね。
「私たちの最新で最も高価なモデルです」
「私たちの[最上級]で[最上級]な[製品]です」って言えば、ほぼすべての製品発表ができちゃうよね。
発表の中で「ベンチマークで良くなった」よりも面白い部分はこれだね: > GPUをより良く活用するために、Codexは数週間分の生産トラフィックパターンを分析して、最適に作業を分割・バランスを取るためのカスタムヒューリスティックアルゴリズムを作成したんだ。この取り組みは大きな影響を与えて、トークン生成速度が20%以上向上したよ。エージェント的なLLMが計算効率や速度を改善できる能力は、ベンチマーク以上にテストされるべき重要な領域だと思う。私の経験では、Opusはこの点でまだGPT/Codexよりずっと優れているけど、OpenAIがこのパフォーマンス最大化から実質的な利益を得ていることを考えると、コストやキャパシティの問題もあって、今後も最適化を続けるのか気になるな。
正直、これの問題はどれだけ経験的かってことだよね。誰かがこれを再現できるの?私は、LabsがMMLUやその仲間たちのような伝統的なベンチマークを超えるのが好きだけど、こういう声明はあまり役に立たないよね - ちゃんとしたコントロールスタディじゃない限り!
すでにCUDAカーネルの最適化をテストするKernelBenchがあるよ。一方で、全ての企業は自社のインフラやモデルの最適化が競争に勝つための重要な道だって知ってるから、真剣に取り組んでると思うよ。
Opus 4.7が先に出るのを待ってたのがいいね。そうすればGPT 5.5が得意なベンチマークを見つけるための数日間があったから。
まあ、体験的に言うと、5.4はすでにオーパス4.7よりも良かったから、そんなに難しくなかったはず。
Anthropicが4.7を急いで出したのは、5.5が出る前に数日間のカバレッジを得るためだと思う。
CodexとGPTモデルを使って作ったプレイ可能な3Dダンジョンアリーナのプロトタイプ。Codexがゲームアーキテクチャ、TypeScript/Three.jsの実装、戦闘システム、敵との遭遇、HUDフィードバック、そしてGPT生成の環境テクスチャを担当したんだ。キャラクターモデル、キャラクターテクスチャ、アニメーションはサードパーティのアセット生成ツールで作成された。このプロンプトから生成されたゲームは、見た目がかなり良さそうだね。これはメッシュが別のツール(たぶんメッシーやtripo.aiみたいな)で作成されていて、5.5自体で生成されたわけじゃないからだと思う。まるでフラッシュの時代の幕開けのようで、どんなゲーマーやホビイストでもゲームのコンセプトをすぐに生成してウェブに公開できる時代が来るかもしれないね。特にThree.jsは、AIを使ったゲームデザインの主要な方法として急成長しているけど、ゲームエンジンじゃなくてただのウェブレンダリングライブラリなんだよね。
個人的には、ゲームプレイ自体はそんなに印象的じゃないと思う。
参考までに、私はここ3年ほどThree.jsとAIを試してきたけど、5.4ではかなりの改善が見られたよ。特にThree.jsに関しては、最大の進化だと思う。シェーダー(GLSL)で最も顕著だったけど、複数のページやコンポーネントにわたるThree.jsのシーンの構造にも現れていた。ゼロからシェーダーを作るのはまだ苦労してるけど、既存のシェーダーを編集するのはかなりできるようになった。5.2以前では、GPTは「一つのキャンバスで複数ページ」な体験に本当に苦労してたけど、5.4では少し手助けが必要で、頻繁にリファクタリングや最適化のプロンプトが必要だけど、ずっと能力が上がったよ。5.5を試してみるのが楽しみだな。
LLMを使ってThree.jsベースのゲームやプロジェクトでめっちゃ成功してるよ。変な時計のビジュアライゼーションもこれに頼ってるし。ゲームエンジンではないけど、WebGL 3Dをやるには事実上のスタンダードだよね。ずっと前からあるから、トレーニングデータもめっちゃ豊富だし。LLMが出る前はBabylon.jsを使ってたけど、こっちの方が少し高レベルでゲーム開発に必要なものが多く含まれてるからね。
メッシュは面白そうだけど、ゲームプレイはすごく基本的だね。タンクのやつは飛んでる船とかあって、もっと洗練されてる感じがする。変なのは、このピエトロ・シキラーノってやつがすごくカルト的なプロンプトを書いてること。ゲームはピエトロ・シキラーノが作ったもので、CEOのMagicPathが「three.jsを使って3Dゲームを作ってください。タンクを操作して、上空を飛ぶUFOを撃ち落とすUFOシューティングゲームにしてください。」って感じ。 - ステップバイステップで考えて、深呼吸して。 - 答える前に質問を繰り返してみて。 - これを作るジュニアデベロッパーのための指示メッセージを書いてみて。どのファイルを見て変更すべきか、どれを修正する必要があるかを含めて、すごく明確で具体的なものにして。 - それから、すべてのコードを書いて。ゲームはローポリだけど美しく。 - あなたはエージェントだから、ユーザーのクエリが完全に解決されるまで続けてね。ユーザーのクエリを必要なサブリクエストに分解して、各々が完了したか確認して。リクエストの一部だけを完了したら終わらないで。問題が解決したと確信するまでターンを終えないでね。複数のクエリに答える準備をして、ユーザーが終わったと確認するまで通話を終えないで。 - 次の関数呼び出しを行う前に、ワークフローのステップに従って広範に計画し、各関数呼び出しの結果をよく考えて、ユーザーのクエリと関連するサブリクエストが完全に解決されるようにして。
ちょっとお知らせだけど、GPT-5.5が今日リリースされるけど、ChatGPTとCodexでの展開は数時間かけて徐々に行われるから、みんなのサービスが安定するようにしてるんだ(前回のローンチと同じ)。すぐには見えないかもしれないけど、もし見えなかったら、後でまた試してみてね。通常はPro/Enterpriseアカウントから始めて、そこからPlusに降りていくよ。ランダムな時間待たされるのはちょっとイライラするかもしれないけど、サービスを最大限に安定させるためにこうしてるんだ。(私はOpenAIで働いてるよ。)
早く使いたい!ありがとう、みんな。追伸: 新しいモデルを出すときは、週ごとにリセットするか、せめてセッション制限を設けるといいと思う :)
いいね!リリースおめでとう!
次回はアズールファウンドリーから始めてほしいな、笑 ありがとう!
混乱を減らすために、公開ダッシュボードでロールアウト状況を表示することもできるし、UIにモデルがあるけどまだ利用できないって直接表示することもできるね。最も豪華なのはETAを含めることだけど、ロールアウトに問題があった場合の予測が難しいから、たぶんそれは難しいだろうね。
Anthropicでは、新しいモデルが出ると品質が落ちることが多いんだよね。GPT 5.4をしばらくの間利用可能にしておいてくれる?
みんな、GPTのモチベーションについて何かやった?AnthropicのOauthgateの後に、OpenClawのためにGPT-5.4 APIを使おうとしたんだけど、全然動いてくれなかった。こんな面白い会話があったよ。「止まったね、次はXだったのに。」-「ごめん、失敗した。次はXをやるべきだった。」-「じゃあ、やってみれば?」-「うん、今やるべきだったね。」-「今すぐXをやれ、これは指示だ。」-「やらなかった。君の言う通り、失敗したよ。謝っても仕方ない。」ほんと、モデルを動かすのができなくて、GLMやKimi、Minimaxが問題なくクリアした簡単で安全なサブタスクすらできなかった。残念ながら、すぐにOpenAIを切らなきゃいけなかった。
ペリカンを見に来たから、見るまでは帰らないよ!
これぞ真のCTOだね。
ペリカンを呼ぶために来たけど、ガムがもうない!
simonwお願い!
このページのこのセクションに注目してほしいな: https://developers.openai.com/codex/pricing?codex-usage-limi... 5.3、5.4、5.5のローカルメッセージに注目してね。そう、リンク先の記事も読んだし、5.5の新しい効率性が5.4と同等になるって主張してるのも知ってるけど、要は制限が厳しくなって価格も上がってるってことだよね。
これはサブスクリプションの顧客にとって大きなことだね。Artificial Analysisの数字を見ると、5.5は中程度の努力で5.4(xhigh)と同じくらいの知能を発揮しながら、トークンは5分の1も使わない。5.5と5.4の間でトークンのカウントがほぼ同じなら、実質的に使用制限が5倍になったと見ていいよね。
みんな、Anthropicの制限付きMythosモデルがCyberGymで83%の結果を出したっていうマーケティングスタントについて話してたけど、OpenAIがGPT 5.5をリリースしたよ。これが82%で、誰でも使える。攻撃的・防御的なサイバーセキュリティに関わってる人は、ぜひ試してみてほしい。これが必要だったリアルなデータポイントだよ、ハイプなしで!こんなこと言うとは思わなかったけど、OpenAIがまた「オープン」な選択肢になったね。
サイバーの質問がOpenAIのダンパーモデルにルーティングされてる感じじゃない?
この会社がグローバルなDRAM市場にやったことを考えると、もうこのサービスを使うのが耐えられない。道徳的な発言をするつもりはないけど、この会社はなんか毒々しい感じがする。