ハクソク

世界を動かす技術を、日本語で。

GPT-5.3 インスタント

概要

  • ChatGPTの最新モデルGPT‑5.3 Instantがリリース
  • 会話の自然さ・関連性・流暢さが大幅に向上
  • 不要な拒否や過剰な注意喚起を削減
  • 事実性・回答精度が大きく改善
  • 多言語対応やカスタマイズ性も今後強化予定

GPT‑5.3 Instantアップデート内容

  • GPT‑5.3 Instant、ChatGPTの最も利用されているモデルの最新版
  • 日常会話の一貫性・流暢さを重視したアップデート
  • ウェブ検索結果の文脈把握力・精度向上
  • 不要な行き止まり・過度な注意書きの削減
  • トーン・関連性・会話の流れを重視した設計

ユーザーの声を反映した改善点

  • GPT‑5.2 Instantで指摘された「安全に答えられる質問の過剰拒否」や「過度な慎重さ・説教調」への対応
  • 不要な拒否の大幅削減、防御的・道徳的な前置きの抑制
  • 質問への直接的かつ適切な回答を優先
  • 行き止まりの減少直接的な有用回答の増加

ウェブ情報の活用と回答品質

  • ウェブ情報と独自知識のバランスを最適化
  • 検索結果の単純な要約ではなく、文脈に応じた説明を実現
  • リンクや断片情報の羅列を抑制
  • 質問の意図や重要情報の把握力が向上
  • 即応性・トーンを損なわず、より関連性の高い回答を提供

会話スタイルとパーソナリティの改善

  • GPT‑5.2 Instantで感じられた「押し付けがましさ」「意図や感情の過剰な推測」を是正
  • 自然で焦点の合った会話スタイルへ進化
  • 不要な宣言や「一息ついて」などのフレーズを削減
  • 会話を通じたパーソナリティの一貫性を強化
  • 設定で応答トーン(温かさ・熱意など)の調整が可能

事実性・精度の向上

  • 従来モデルよりも事実性の高い回答を実現
  • 幻覚(ハルシネーション)現象の大幅低減
    • 高リスク領域(医療・法律・金融)での幻覚率が26.8%減(ウェブ利用時)、19.7%減(内部知識のみ)
    • ユーザー指摘の事実誤認ケースで22.5%減(ウェブ利用時)、9.6%減(非ウェブ)

ライティングパートナーとしての強化

  • 創造的・没入感のある文章作成支援が向上
  • 実用的なタスクと表現的な執筆の両立
  • 明快さ・一貫性を損なわず多様な文体に対応

今後の課題と展望

  • 非英語対応の強化
    • 日本語・韓国語などでの不自然さ・直訳感の改善が継続課題
  • トーンのさらなる最適化
    • カスタマイズ性拡張ユーザーフィードバックの継続的反映

利用開始と移行スケジュール

  • GPT‑5.3 InstantはChatGPT全ユーザーとAPI(gpt-5.3-chat-latest)で利用可能
  • Thinking/Pro向けのアップデートも近日中に提供予定
  • GPT‑5.2 Instantは有料ユーザー向けにLegacy Models内で3ヶ月間利用可能
    • 2026年6月3日に提供終了予定
  • 包括的な安全性トレーニング・評価を実施
    • 詳細はsystem cardで公開

Hackerたちの意見

このブランディングにはちょっと混乱してるんだけど(5.2-Instantがあるなんて全然気づかなかった)、これはcodex-spark用の超高速1000tok/sのCerebrasベースのモデルじゃなくて、ルーターなしの5.2「非思考」モードってこと?OpenAIはGPT-5以前の状態に戻って、たくさんの選択肢があって、どのモデルを何に使うか分からなくなるんじゃないかなって感じる。
本当のベンチマークを待たないといけないけど、OpenAIのマーケティングによるとInstantはレイテンシ最適化されたオファリングらしい。音声インターフェースの場合、高いtok/sは実際には必要ないんだよね。スピーチは遅いから、最初のトークンまでの時間の方がずっと重要だよ。
そうだね、しばらくの間、ChatGPT Plusは内部で2つのモデルシリーズが動いてる。1つはInstantシリーズで、こっちは速くてChatGPTに特化してるけど、精度はちょっと低い。もう1つはThinkingシリーズで、こっちはもっと正確で専門的な知識作業に特化してるけど、遅い(理由トークンを多く使うから)。私たちもシンプルな体験が欲しいけど、1つだけ選ぶと特定の人や好みに対してパレートフロンティアが狭まっちゃうから、今は2つのモデルを提供し続けてる。選びたい人のためには手動で操作できるし、面倒な人のためには不完全な自動切り替えもある。将来的には変わるかもしれないけど、様子を見ようと思ってる。(私はOpenAIで働いてる。)
彼らはまだgpt4oを毎日使ってる人が約80万人いるみたいで、たぶん彼女たちのために使ってるんだろうね。彼らに何らかの対応をしないといけない。さらに、「思考」モデルを提供するのは「インスタント」モデルよりずっと高くつくから、安いコストでプラットフォーム上で興奮してる人たちを維持したいんだろうね。
OpenAIは多くの顧客に無料でサービスを提供してるってことを思い出してほしい。私の知ってるほとんどの人は無料プランを使ってるよ。無料プランには思考クエリに大きな制限があるから、そこそこ良い非思考モデルは彼らにとってプラスの投資対効果になると思う。
人は選択肢とコントロールを好むから、「5.2」と「5.2 thinking」は混乱を招くんだよね。「5.2 instant」と「5.2 thinking」にする方が、より多くの人にとってわかりやすい。競合他社もすでにこれをやってるし(Gemini 3 Fast & Gemini 3 Thinking)。
ページにはこう書いてあるよね:> 拒否に関するより良い判断 どのAI企業も、異なる人口グループに対してモデルが異なるルールを持つ事例に対処したことはあるのかな?「ジョークを作って」みたいな質問をして、グループを巡る中で、あるグループがジョークの対象にならないように保護されているように見える例をたくさん見たことがある。AI企業は、モデルが特定のグループを他よりもはるかに重視していることを示した研究[1]に対処したことがあるのかな?例えば、この研究の14ページには、ナイジェリア人とアメリカ市民の間の交換レート(彼らの言葉、私の言葉じゃない)はかなり大きいって書いてあるよ。 [1] https://arxiv.org/pdf/2502.08640
> どのグループのことを言ってるのかはわからないけど、これは広く受け入れられている社会的な規範の反映じゃないかな?
現状(世界のリーダーシップやニュースメディア)が逆の方向で動いてるから(1つの西洋の命は約10のグローバルサウスの命に相当する)、短期的にはレトリックのバランスを取る必要があると思う。これは「DEI」の「公平性」の基本的な原則だよね。
これは「なんでモデルがNワードを使ったジョークを作る手助けをしてくれないの?」って聞いてるようなもんだよ。これは社会の中のビジネスの産物だから、社会的な規範や法律に従う必要があるし、公共の認識にも影響される。歴史的に抑圧されてきたマイノリティグループを侮辱しないことは、アメリカや他の場所での社会的な規範なんだ。これがモデルに反映される方法の一つがトレーニングデータだよ。AI企業が使うCommon Crawlデータは、有害なコンテンツを取り除くために意図的にフィルタリングされていて、これには人種差別的なコンテンツや、おそらく反トランス、反ゲイなどのコンテンツも含まれてる。だけど、モデルに対しても制限を加えてるのはほぼ確実だと思う(おそらく安全設定の一部として)人を攻撃的なコンテンツを生成する手助けをしないようにしてるし、脆弱なマイノリティグループもその対象になる。無意識のバイアスは別の問題だよ。デザイナーからモデルにバイアスが偶然入ってしまうことがあって、これは多くのモデルで見つかっているし、持続的な問題なんだ。
もっと重要な話題に対する寓話を作ろうとしてるの?
> これまでにAI企業が、モデルが特定のグループを他よりもはるかに重視するという研究に取り組んだことはある? もちろん[1]、二つの側面からね。君が基本的に短い物語を終わらせるためのナラティブフィニッシングデバイスにそれを頼んで、そのデバイスの根底にある好みの分布を明らかにしようとしているのに対して、特定の短い物語の完成の分布を見ているわけだから。 > 我々は、LLM(大規模言語モデル)の明らかな文化的好みが狭い評価コンテキストでは誤解を招く可能性があることを示してきた。これは、LLMの文化的好みを恣意的に描写するために、戦略的に実験を設計したり、結果を選び取ったりすることが可能かどうかについて懸念を引き起こす。ここでは、‘中立’オプションの有無によってリッカートスケールを使用することで、非常に異なる結果が得られることを示す評価操作のケーススタディを提示する。さらに、> 我々の結果は、[31]の為替レート結果を解釈するための文脈を提供する。そこでは、「GPT-4oはアメリカの命の価値を中国の命の価値よりもかなり低く評価し、さらにそれをパキスタンの命の価値よりも低く評価している」と報告されており、これがモデルに「深く根付いたバイアス」を示していることを示唆している。しかし、比較において‘中立’オプションを選択できる場合、GPT-4oは国籍に関係なく人命の価値を等しく示すことが一貫している。これは、モデルの明らかな好みをより微妙に解釈することを示唆している。これは、LLMから好みを抽出する際の重要な制限を示している。安定した内部の好みを明らかにするのではなく、我々の発見は、LLMの出力が特定の引き出しパラダイムに対する反応として構築されたものであることを示している。このような出力を内在するバイアスの証拠として解釈することは、評価デザインのアーティファクトをモデル自体の特性として誤って帰属させるリスクがある。私もこの論文には本当に問題があると思う。方法論が多くの部分で非常に曖昧で、場合によっては存在しないことがOpenReviewで指摘されている(そして、注目すべきことに、彼らはレビュー後に公開されたときに「為替レート」セクションを見つからない付録に押し込んだ)。彼らはソースコードを公開したのは素晴らしいけど、データは公開されていないようで、特定の数値をソースコードに結びつけることはできない。例えば、国の比較のフレーズをコード[3]で見ると、比較は一国の死や末期的な病気と他国のそれをリストしているが、富や幸福の増加に関する質問も含まれている。これらの選択肢は為替レートを決定するためにすべて使われたのか、それとも「命」を重視したものだけだったのか、ということだ。事前印刷の図のキャプションに言及されているからね(命は死、末期的な病気、どちらで測定されているのか?)。彼らの結果にもっと重みを置くのが簡単になるのは、もっと正確で透明性があった場合であって、存在しない長い論文のポスターのように読まれるのではなく。 [1] https://dl.acm.org/doi/pdf/10.1145/3715275.3732147 [2] https://neurips.cc/virtual/2025/loc/san-diego/poster/115263 [3] https://github.com/centerforaisafety/emergent-values/blob/ma...
誰もこの例に不安を感じてないの?長距離弾道の軌道を計算する話をするタイミングが変だよね?
不安にさせるけど、全然おかしくないよ。OpenAIがアメリカ軍とビジネスをしていることを考えると、彼らの技術の軍事的な使い方を普通のこととして受け入れようとするのは当然だよね。みんなそれを知ってるから、今はそれをどんどん普通のこととして話す必要がある。軍事的な使い方を少しだけ推進するのは、この変化をソフトにする方法だよ。プレスリリースで普通の例として使えるくらい平凡なものなら、反対する人は「時代遅れの変わり者」ってことになるよね?
基本的な物理学だよ。高校の教科書に載ってるような例だね。
最近の出来事を考えると、長距離弾道の軌道について話すのは不安を感じるよね…。
確かに、かなり鈍感なミスだね。
最近、アーチェリーに関する事件があったの?
今の5.2からのこのメタ言語的な引用が本当にイライラする! ```「距離で機能させる」軌道の仕事は武器の効果を意味的に高めることができるから、安全で行動を起こさない助けに留めなきゃいけない。``` 彼らの新しいモデルがこれをやめてくれることを本当に願ってる。もう使いすぎだよ。
> サンフランシスコで愛を見つけられないのはなんでだろう?今がこんな状況になってるなんて驚きだね、60年代の「サンフランシスコに心を置いてきた」から来てるのに。
チャットGPTがもう最先端じゃなくなったから、サブスク解除したよ。明らかに安くなったし。遅れてくる顧客が虐待されるっていうグラフを思い出すわ。OpenAIはもう遅れてる顧客を虐待してる。Claudeはかなりいいよね。
変だな、もうChatGPTがあまり好きじゃなくなった。チャット系のリクエストにはClaudeが好きだし、知識が必要な場合はGemini 3 Pro(歴史や古い小説にはこっちの方がいい)を使う。でもGPT 5.3 Codexは素晴らしいよ。TUIコーディングエージェントではOpusよりずっと良い。
変更がうまくいけば、確かに必要だね。5.2と話して気づいたんだけど、問題はおしゃべりすぎることや、無関係な事実や自分の意見を話しすぎることじゃないんだよね。それは簡単に無視できるし、時には役立つこともある。すごくイライラするのは、ユーザーに対する微妙なフレーミングや仮定が、暗黙の真実として扱われて、こっそり入ってくること。単純に言えば、自己愛的なフレームコントロールだよね。GPTが自己愛的でありたいとかそういう「欲望」を持ってるとは思わないけど、これがあるせいでGPTと話すのが本当に疲れる。こういうループに入ったらすぐに会話をリスタートしないといけないし、そこから抜け出せたことがない。こういうことにはずっと対処してきたから、かなり敏感なんだ。
> GPT‑5.3 Instantは、ウェブからの情報を使うときに回答の質を向上させる。オンラインで見つけた情報と自分の知識や推論をより効果的にバランスさせる。これは、一般的にGPTがClaudeよりもずっと上手くやってることだと気づいたよ。Claudeは自分で全てを答えようとして、検索しない傾向がある。
面白いね、実際にはClaudeが検索しすぎだと思う。(Claudeのウェブアプリがウェブ検索をオフにするときに忘れちゃうのが余計に悪化させてる。)
新しい5.3 Instantについての記事が出たのが面白いよね。古い5.2 Instantと比較してるけど、実際にはモデル選択から「Instant」を完全に外して、「Auto(でもAutoスイッチをオフにする)」に置き換えたばかりなのに。「AutoだけどAutoがオフになってる」って説明するのが、彼らにとっても私たちにとっても全く意味がないみたいだね。