最近の「ChatGPT 5.5 Pro」に関する体験

6時間前原文(gowers.wordpress.com)

概要

ChatGPT 5.5 Pro が、数学の研究課題において 人間レベルの成果 を短時間で出した事例の紹介
Erdős問題 など、既存の文献や既知の結果からの導出を超えたAIの進化
Nathansonの加法的整数論の問題 に対し、AIが新たな構成法を提示
論文執筆や証明の自動化、既存研究の枠組みをAIが拡張した実例
AI生成数学成果の公開・評価方法 に関する新たな課題提起

LLM（大規模言語モデル）による数学研究の進化

LLMの数学的能力 が想定以上に急速に向上
ChatGPT 5.5 Pro が、 PhDレベルの研究成果 を約1時間で自動生成
Erdős問題 など、既知の文献からの解答のみにとどまらず、 新規な証明構成 が可能に
- 以前は「文献の答えを見つけるだけ」と軽視されていたが、現在は 独自の発見 も増加
人間が見逃していた簡単な証明 をAIが発見するケースが増加
既存の知識の組み合わせ が中心だが、人間の数学研究も多くは同様の手法

Nathansonの加法的整数論問題へのAIの挑戦

Nathanson による「Diversity, Equity and Inclusion for Problems in Additive Number Theory」論文の問題を選定
- 整数集合の和集合（sumset） のサイズに関する問題
- Sidon集合 や 等差数列 を用いた構成法
ChatGPT 5.5 Pro が、与えられた条件下で 最適な二次的上限（quadratic upper bound） を発見
- Nathansonの手法を発展させ、より効率的なSidon集合を利用
制限和集合（restricted sumset） についても、AIは即座に解答を提示
一般のkに対する場合 も、既存研究（Rajagopal）を参考にしつつ、 指数関数的上限の改善 を達成

AIによる証明の自動生成・論文執筆の実際

証明の構成 から LaTeXによる論文執筆 までAIが自動で実行
人間研究者による検証 を経て、AIの証明の正しさが確認される事例
アイデアの独創性 についても、人間が数週間かけて考えるレベルの発見をAIが1時間未満で実現
AIと既存研究の協調 による新たな数学的進展

AI生成数学成果の公開・評価の課題

AI生成の数学的成果 の取り扱い方法が未確定
- 人間の研究者による成果ならば「出版価値あり」とされるレベル
- arXiv ではAI生成コンテンツの投稿が禁止
- 新たなリポジトリや公開プロセス の必要性
人間による検証・証明支援ツール （proof assistant）との連携
過剰な審査負担の回避 やAIによる審査のリスク

まとめと今後の展望

LLMの進化 により、 数学研究のハードルが上昇
問題解決の難易度 が「人間が解けない」から「AIでも解けない」へとシフト
AI生成成果の認証・公開方法、 人間との協働のあり方 が新たな課題
今後の数学研究・教育・出版の在り方 に大きな影響を与える可能性

参考リンク

Hackerたちの意見

約10年前にシアトルで開催されたAMS-MAA合同会議でティム・ガウアーズの講演を聞いたんだけど、彼は「100年後には人間が研究数学をやらなくなる」と予測してたんだ。彼のタイムラインは変わったのかな。あの時、私が思ったのは、数学の問題やアイデアを自分の理解で説明して、関連文献を探せる自然言語検索が欠けているってことだった。まるでMathOverflowみたいにね。

すごく長い投稿で、技術的（数学的）な部分と哲学的な部分が混ざってる。私が考えるに、反省すべき最も印象的なポイントはこれだと思う。 > 「博士課程の初めての学生に研究をさせるための訓練が、ますます難しくなっているように思う。なぜなら、誰かをスタートさせるための明らかな方法は、比較的優しい問題を与えることだからだ。もしLLMが『優しい問題』を解ける段階にあるなら、それはもはや選択肢ではない。」数学に貢献するための下限は、LLMが証明できない何かを証明することになるだろう。もちろん、訓練は基本から始めなきゃね。みんなの数学の訓練は、小さな整数を足すことから始まるけど、計算機はずっと前から間違いなくそれをやってる。さらに別のコメントがこの点を確認している。 > 「難しい問題を解くことで、少なくとも自分の専門分野において、問題解決プロセス自体についての洞察を得られる。もし他の人の解法を読むだけなら、そういう洞察は得られない。」これの一つの結果は、難しい問題を自分で解いた人は、AIの助けを借りて問題を解くのがかなり得意になる可能性が高いってことだ。優れたコーダーは、そうでないコーダーよりもコーディングのセンスがいいみたいに。人々はコーダーにお金を払って、彼らが使うものを作らせるし、私はAIを使って早く成果を出して、雇われ続けることができる。数学でも似たようなことがあるかは分からないけど。再度投稿からの引用 > 「もし数学者が、LLMとの長いやり取りを通じて大きな問題を解決したとしたら、数学者が有用な指導的役割を果たし、LLMがすべての技術的作業と主要なアイデアを持っていたとしたら、それを数学者の大きな業績と見なすだろうか？私はそうは思わない。」

└

でも、これを大きな成果と考えるべきかもしれないね。

「もし数学をする目的が、いわば不死を達成することなら、それがあまり長くは可能でないことを理解すべきだ。あなたに限らず、誰にとっても。」これを聞いてちょっと悲しくなった。

└

それをあらゆる人間の業績に当てはめてみて。

└

そんなにがっかりすることでもないと思う。偉大な数学者たちが不死を目指していたとは思えないし、ほとんどの人は（間接的な）実用的な応用を追求していたか、単に「ゲームの楽しさ」のために数学の美しさや知的な喜びを楽しんでいたんじゃないかな。AIが実用的な応用の部分を引き継ぐかもしれないけど、他の側面はまだまだ残ってるよ。

東欧のTCS助教授として、数学界の大物たちが高価で長時間考えるモデルに簡単にアクセスできるのをちょっと羨ましく思ってる。私の現在の学術予算からProを払うのは現実的じゃないし、予算は制限があってソフトウェアの支払いに使えるのはほんの少し。新しい助成金を申請しなきゃいけなくて、その助成金のルールが大きなソフトウェアの支払いを許可してくれるか、反AIの審査員に当たらないことを願うしかない。そんなの、少なくとも1年はかかるよ。さらに悪いことに、最近マイクロソフトがCopilotの個人（および学術）利用を制限したせいで、Claude Opusを「拒否」された。 (Chagpt 5.5 Plusでは新しい研究テーマを深く調査するには不十分だと思う、試してみたけど。) 愚痴を言ってごめんね。

└

これは、最も有利な立場にいる人たちが、常に報酬を得続ける典型的な例だよ。貧乏な人と金持ちがブーツを買う例を考えてみて。貧乏な人のブーツはすぐにダメになって交換しなきゃいけないけど、金持ちのブーツは高品質な職人技のおかげで何年も持つ。何年も経つうちに、貧乏な人のブーツ代がかさむんだ。

└

@NotOscarWilde、ここにメールアドレスを教えてくれたら、連絡するよ。5.5 Proのプロアカウントを数ヶ月間無料で試せるようにするから。

└

5.5 Proに聞いてほしいことを貼ってくれたら、返事を貼るよ。

└

あなたの愚痴、めっちゃわかる！大学がマイクロソフトと契約してるから、Proアカウントに月20€くらい払ってるんだけど、Copilotしか認識されてないから、自分の資金で他のものを払うのがすごく難しいんだよね。

└

私の大学では、みんな自分のポケットマネーでAIのサブスクリプションを払わなきゃいけなかったんだけど、最近共同のAIサービスが導入されたんだ。設置に2年かかって、今はgpt-oss-120bしか使えないから、みんなまだ他のサービスを使ってる。でも、少なくとも一部の管理者は大学のウェブサイトに「AI」って言葉を散りばめられるようになったし、「もうAIがあるから」って理由でAIのサブスクリプションのリクエストを拒否する口実もできたんだよね。

└

OpenRouterはトークン単位で支払える（サブスクリプションなし）し、すべてのフロンティアモデル（Opus 4.7やGPT-5.5を含む）やその他のモデルも揃ってます。使い方次第では、かなり安く済むことが多いですよ。

大学院生として、この文章を読んで悲しくなった。自分の仕事は自分を超えて語るもので、この宇宙の経験の限られた時間を超えていると信じていたから。この不死の概念は、大学院に飛び込んだときの小さな無形のボーナスだった。AIが私を価値がないと感じさせている。

└

あなたは価値があるよ。大学院でスキルを磨いて、長い間難しい問題に取り組んできた人よりも、これらのAIをうまく使えるようになるから。

└

もっと進んでいる立場から言わせてもらうと、その考え方はやめた方がいいよ。そういうことで落ち込む才能ある人をたくさん見てきたから。あなたはこの仕事をする価値があるし、できるからこそやっているんだよ。愛を持ってこの仕事をして、神秘を楽しんでください。やることができる幸運を楽しんで、他の人が満足できない仕事をしている間に、あなたがこの仕事をできることに喜びを見出してください。時には退屈だけど、時にはそれ自体がすごく報われることもあります。永遠の栄光を求めて働かないでください、それはもう存在しないから。

「思考実験をしてみよう：もし数学者が、LLMとの長いやり取りを通じて大きな問題を解決したとしたら、数学者が有用な指導的役割を果たし、LLMがすべての技術的作業と主要なアイデアを持っていたとしたら、それを数学者の大きな業績と見なすだろうか？私はそうは思わない。これは文化的な選択だ。現在の数学文化においては、これは異質に思えるのは理解できる。しかし、すでに他の分野や多くの個人は、ここで人間が大きな業績を上げたと言うだろう。人間とAIの協力が最高の結果を生んでいる限り、人間の意味のある貢献があるし、より深い専門家やスキルのあるLLMの使い手は大きな貢献をするべきだ。本当に重要なのは、純粋なAIが人間や人間とAIの協力を超えた時だ。」

└

スポーツにおけるAIについてのコメントに返信したんだけど、それを基に話を広げるよ。車のドライバーを称賛するけど、実際にはそのスポーツのパフォーマンスのほとんどは車から来てるよね。ドライバーが違いを生むのは、2台の車の性能が近い時だけ。素晴らしい瞬間やミスもあるし、馬術の騎手も同じ。数学の場合、人間がLLMを正しい方向に導いたり、問題を指摘したりできるから、ある程度の称賛に値すると思う。車を作ったチームや馬の世話をした人、AIを構築した人たちももっと称賛されるべきかもしれないけど、やっぱり目に見える人に注目が集まりがちだよね。

└

数学者にとっては大きな成果ではないかもしれませんが（議論の余地はありますが）、それでも重要な結果です。

ごめん、昨日のコメントを再投稿するね。これがぴったりだと思うから。 > 「AIの過剰な期待に惑わされないで」ってAntirezが言ってたのを思い出す。一言で言うと、これらの基盤モデルは、非常に高いレベルで、非常に明確に定義された問題空間（例えば、行列を速く掛け算すること）を最適化するのが得意なんだ。Antirezの場合は「Redisを速くする」ってことね。

この実験は成功だったと思う。AIに指示を出していた人たちが、正しい質問をする知識を持っていて、出力が正しいかどうかを確認できたから。これは、LLMが実際のリサーチを行っても、専門知識の重要性がまだあることを示してるね。

└

LLMに対する自分の貢献は、最初のアイデアや全体のデザインの調整に最も価値があると思ってる。大半はネガティブフィードバックだね。「これおかしいよ」「道を外れてるよ」「回避策でごまかしてるよ」「迷宮に入ってるよ」とか。

私は物理学の教授で、よくGeminiを使って論文をチェックしてるんだ。これはすごいツールで、数日間見つけられなかった誤植（複雑な数式の中の虚数単位の欠落）を見つけてくれたし、私が見落としていた概念やアイデアのつながりを強調してくれることも多い。ただ、概念的な間違いをすることも多くて、それは私がそのトピックについての知識があるからこそ気づけるんだ。例えば、3Dクリフォード代数では、バイベクターと擬スカラーの指数を何度も混同してる。ChatGPT 5.5 Proが出版可能な論文を作成できるのはいいことだけど、今のところGeminiを見ている限り、LLMはすごく効率的な学生として考えるのがいいと思う。論文や本をすぐに読めるけど、まだたくさんの指導が必要なんだよね。

└

コードに関する経験に近いな。LLMは巨大なコードの変更から小さなミスを驚くほど正確に見つけ出すことができるし、変なところをゆっくり絞り込んでいくこともある。一方で、全く間違った概念モデルの下で頑張っているのを見たこともあるし、その結果、ぐるぐる回って重要なエラー信号を「一時的な失敗」として無視しちゃったりする。無限のスタミナだけど、知恵は低いって感じ。

└

物理の教授じゃないけど、私が「シニアエンジニア」としてツールを使う方法と合ってるなと思う。基本を持ち込んで、すぐに反応するエージェントをサニーチェックして、他の人にもその基本を教えて同じ方向に進めるようにしてる。これがうまくいく唯一の方法な気がする（最終的には、企業が手頃に使えるローカルモデルに移行することを除いて）。

└

過去10年間、フライトコントロールシステムの自動化を見てきたけど、緊急時に本物のパイロットに戻る仕組みの進化が、LLMが埋め込まれる場所で最も懸念されることだと思う。今は、こういうことがどこで間違っているかを理解するために何十年も訓練してきた賢い人たちがたくさんいるけど、その人たちが徐々に知識の少ない人に置き換わっていく。いつか、これらのシステムが人間のオペレーターに戻れなくなる境界線を越えて、壮大に失敗する時が来ると思う。

└

ぜひ、ChatGPTかClaudeの有料プランに登録してみてください。Geminiは近いけど、まだまだ劣ってるから、最高のツールとのやり取りで形成された意見を得る価値がありますよ。

└

上の内容について、あなたはGemini 3.1の「通常」プロ版を使っていると思います。Deep ThinkモードはGPT-5.5 Proに近いですが、私の経験では通常の3.1 Proは一段下で、しばしば間違いを犯します。それに、3〜4年前には高校の数学問題すら解けなかったLLMの進歩が、すぐに止まるとは思えません。これらのモデルの進捗を、未発表の研究レベルの物理問題を基にしたCritPtベンチマークで追ってみるといいですよ。https://critpt.com/ フロンティアモデルはまだ解決できていませんが、進展は早いです。* o3（高）約1.5年前は1.4% * GPT 5.4（超高）、23.4% * GPT-5.5（超高）、27.1% * GPT-5.5 Pro（超高）30.6%。https://artificialanalysis.ai/evaluations/critpt。

└

同意するけど、最新のSOTAモデルがGeminiより優れているわけではないことを明確にしたいです。私は自分の作品をいくつかのSOTAモデルで試して、敵対的なコラボレーションでラウンドロビンしてみましたが、どれも役に立ちます。基本的には「理解」していないけど、問題やアプローチ、解決策を自分の頭の中でしっかり決めておけば、彼らを挑戦させて方向を指示するのにすごく便利です。この記事は特定の新しいモデルが何かをうまくやっていることについてですが、各ベンダーは自分のモデルが人間や他のモデルを置き換えるのに十分良いと位置づけたいんですよね。でも、私は幸運にもすべてのSOTAモデルを常に使える環境で働いているので、どれも明らかな間違いを犯していることがわかります。すべてを敵対的に使う方が、一つだけを信じるよりずっと良いです。いつか、自分たちで動かせる小さなオープンモデルが、今のすべてのモデルを上回る日を楽しみにしています。その時が来たら、もう十分だと言えるし、物事を平坦に保てるでしょう。

└

LLMは出力に期待があるときに最も良い結果を出します。私は一般的に正しい応答の形を知っているので、その「雰囲気」で出力を評価できます。期待がないと、すべてをそのまま受け入れなければならず、機械の言いなりになってしまいます。

ソースのブログ記事へのリンク: https://gowers.wordpress.com/2026/05/08/a-recent-experience-...

└

それがトップリンク（つまり、タイトルにリンクされているやつ）ですよね？

ハクソク