ChatGPTを駆使するアマチュアがエルデシュ問題を解決

14時間前原文(www.scientificamerican.com)

概要

23歳のアマチュアが60年未解決の数学問題をChatGPT Proの力で解決
AIが従来と異なる新しい方法で証明を提示
専門家もAIの手法の独自性と応用可能性に注目
問題はErdősの「primitive set」理論に関するもの
今後の数学研究やAI活用への期待が高まる

ChatGPTが解決した60年未解決の数学問題

Liam Price、23歳、数学の高等教育なし
**ChatGPT Pro（GPT-5.4）**を利用し、Erdős問題の一つを解決
問題は**「primitive set」**と呼ばれる、互いに割り切れない整数集合に関するもの
Erdős sumというスコアで集合の特性を評価
Erdős sumの下限が1になるという予想があったが、長年証明されていなかった
- Jared Lichtmanが2022年にErdős sumの上限を証明
- 下限については専門家も証明に失敗
PriceはAIに問題を入力、ChatGPTが独自の新しいアプローチで証明を提示
出力は粗かったが、専門家のLichtmanとTerence Taoが内容を精査・簡略化

AIによる数学的発見の意義と今後

従来のアプローチとは異なる発想で問題を解決
人間の思考の偏りを回避するAIの強みが明らかに
Taoによれば、「大きな数の構造に対する新しい考え方」を発見
Lichtmanも「問題群に共通する直感が裏付けられた」と評価
他の難問にも応用可能性が期待される
- AIの証明には専門家の解釈と整理が必要
- AIと人間の協働による新たな数学研究の可能性

AIと数学研究の今後

AIの数学分野への応用の進展
- 特に未解決問題や新規アプローチへの期待
人間の思考の限界を補うAIの役割
証明の自動化や新しい発見の加速
専門家によるAI出力の検証と発展が不可欠
AIと人間の協力による数学の革新

参考情報

問題の詳細や証明内容はwww.erdosproblems.com/1196で公開
Erdős問題やAIによる証明の最新動向を掲載

Hackerたちの意見

ここにチャットがあります：インターネットを検索しないでください。これは「数論と原始集合」の数学問題に対して、どれだけ非自明で新しい創造的な証明を作れるかを試すテストです。問題の完全な無条件の証明または反証を提供してください。{{problem}} 忘れないで - この無条件の議論には、非自明で創造的かつ新しい要素が必要かもしれません。それから「80分17秒考えた」 https://chatgpt.com/share/69dd1c83-b164-8385-bf2e-8533e9baba...

└

同じプロンプトを試したけど、無料プランでは全然近づけなかった。

└

私は20分かかった。プロ。 https://chatgpt.com/share/69ed83b1-3704-8322-bcf2-322aa85d7a... でも、うまくいったかどうか知るために数学が得意だったらよかったな。

└

5.5 Proで試してみたよ、Extended Thinking。17分間: ----------------------------- うん、実際に提案された境界は正しいし、定数1は鋭い。w(a)を1/alog(a)とすると、任意の原始集合A⊂[x,∞)について、∑w(a)≤1+O(1/log(x))が成り立つことを証明するよ。これは要求された1+o(1)よりも強いんだ。 https://chatgpt.com/share/69ed8e24-15e8-83ea-96ac-784801e4a6...

https://archive.ph/2w4fi

人間も、そして私たちが作る機械も、問題を加算的に解決することが多いんだよね。つまり、既存の基盤の上に構築していくから、考え方が固定化されちゃうことがある。人は車輪を再発明するのを嫌がるからね。だから、ナイーブなLLMを使って、専門家たちが試さなかったようなことを思いつくのは驚くことじゃないと思う。LLMは、こういう限られたケースで問題へのアプローチを変える手助けができると思うんだ。正しい必要はなくて、誰かに代替案を提供できれば、それが何かを変えて解決に繋がるかもしれない。ただ、Erdősの問題の実用的な価値が何なのかは全く分からないけどね。もしこれがLLMがゴミじゃないことを示しているかって聞かれたら、1928年に数論に何百万ドルも研究費を使うべきかって聞かれてるみたいな感じ。答えはノー、オフィスから出て行って。

> 「ChatGPTの証明の生の出力は実際にはかなりひどかった。だから、専門家がそれをふるい分けて、何を言おうとしているのかを理解する必要があった」とリヒトマンは言っています。これが、私が数学の論文を読むときの気持ちです。

この段階で、解決されていない「ドライラボ」問題の巨大リストを持つGitHubリポジトリを作って、毎回の新リリースでそれを解決しようとするハーネスを立ち上げるべきだね。

└

それ、実際に素晴らしいアイデアだね。

└

実際、テレンス・タオや他の数学者たちが維持しているリポジトリがあって、彼らはLLMを使って問題の解決を試みているんだよね。[1] https://github.com/teorth/erdosproblems

└

それがまさにエルデシュの問題なんだよ。この投稿はそのうちの一つが解決されたことについてなんだ。

エルデシュの問題の中には、後に開発された高度な技術を使うと基本的にトリビアルなものもあるよ。ある教授が、エルデシュの共著者なんだけど、クイズの後に「しばらく解決されなかったエルデシュの問題を学生にクイズとして出せたのが誇らしい」って自慢してたのを覚えてる。

└

タオは、この問題に対する従来のアプローチが行き詰まっているようだと言っているけど、どうやらそれが超「明白な」第一歩らしい。これはすごく希望が持てるよね。新しいアプローチのラインができたから、関連する問題を評価する手段が増えたってことだし。

└

ただ、もうすでにみんながLLMを使ってこれらを試していることは言っておく価値があるね。だから、これはモデルが実際に強くなっている証拠だよ（前の世代のLLMではこれを解けなかったから）。

エルデシュの問題の複雑さには全然及ばないけど、GPT（Codex）を使っていくつかの定理を証明してみたら、この点ではクラウド（Code）よりちょっと良い感じだった。

科学の進歩は、ある分野の技術Xを別の分野の問題Yに適用することで起こったことが多い気がする。LLMは、人間よりもこういうつながりを作るのが得意だと思うんだ。なぜなら、1) 一人の人間が知っている理論やアプローチよりも多くのことを知っているし、2) 仲間の前で恥をかく心配をしなくていいから。

└

これが私がやっていることです。特にすごいブレイクスルーがあったとは思わないけど、同時にいくつかのホワイトペーパーに値する気づきを得たような気がします。直感的に理解しているけど、深い知識はない多くの領域を関連付けることができるのは、LLMの実験として楽しい体験でした。

└

私が個人的に「推論」と考えるのは、知識の一般化と異なる領域への応用です。

└

> 多くの科学的進歩は、ある分野の技術Xを別の分野の問題Yに適用することで起こったようです。そうですね、いつかラングランズプロジェクトについて調べてみるといいですよ。

知らない人のために言うと、ポール・エルデシュは1900年代のほとんどを生きた、かなり有名でとても風変わりな数学者でした。彼は人々が取り組んでいる数学の問題を探し出して記録する習慣がありました。問題の難易度は「現在の数学の学部生にとって簡単な宿題」から「これを解ければフィールズ賞がもらえる」まで様々です。問題同士をつなぐものは、過去100年で最も頭の良い人の一人が誰かにその問題を出されたときにすぐに答えを知らなかったという事実だけです。人々がLLMを使ってやっていることの一つは、これらの問題に対する証明を見つけられるかどうかを試すことです。新しいモデルがリリースされるたびに、いくつかの問題が解決されています。

└

> 新しいモデルがリリースされるたびに、いくつかの問題が解決されています。私は専門家ではありませんが、数学者のコメントに基づくと、このエルデシュの証明はユニークなマイルストーンです。なぜなら、この問題は複数のプロの数学者から以前に注目を集めており、証明が驚くべきもので、エレガントで、新しいつながりを明らかにしたからです。以前のChatGPTによるエルデシュの証明は、質的にあまり印象的ではありませんでした（文献検索や、無視されていた簡単な問題を解くのに近いです）。

LLMが知的ではなく、単なる統計的な単語予測器だと信じている人への質問です：そのような成果をその見解とどう結びつけますか？（はっきりさせておくと、私は賛成も反対もしません。私も時々同じように感じます。ただ、他の人がどう考えているのかに興味があります。）