Erdos 281がChatGPT 5.2 Proで解決されました

Hackerたちの意見

エルデシュ問題のスレッドには、テレンス・タオのコメントが含まれてるよね。https://www.erdosproblems.com/forum/thread/281

誰かこれを確認した人いる？俺はLLMを使っていくつかの数学問題を「解決」したことがあるけど、LLMが微妙に間違った解答に自信満々だったりするのが気になるんだ。ここがすごく興味深い。Open AIのメモリの順序や、より良いモデルへのアクセスを制限するキャパシティの主張も面白いね。

└

テレンス・タオがOKを出したんだ。これ以上の評価はないと思うよ。

テリー・タオのコメントから: 「とても素晴らしい！... 実際、証明方法よりも印象的なのは、限界や量化子の入れ替えに関するミスを避けていることだね（ここで避けるべき主な落とし穴）。以前の世代のLLMは、こういった微妙な問題をうまく扱えなかっただろう。... この結果をウィキにセクション1の結果として載せることにするよ（今までのところ、最も明確な例かもしれないね）」数学の変化のペースは、今後注目すべきだね。多くの小さな定理が消えていく。次の大きなマイルストーンは、LLMが有用な抽象を生成できるかどうかだね。

└

誰かがこの問題に関する文献を掘り起こしたみたいだね（erdosproblems.comのスレッドのトップコメントを見てみて）。「参考文献を追うと、実際にこの結果は（ロジャースの定理を適用した後）1936年のダベンポートとエルデシュの論文から導かれることがわかる（！）、これは君が言及した二つ目の結果を証明している。... とりあえず、この問題をウィキのセクション2に移動するよ（ただし、新しい証明は文献の証明とはかなり異なるけどね）。」

ちなみに、Deepseekに同じプロンプトを与えたら、そっちも解決したよ（ChatGPTの41分よりずっと早かった）。その後、両方の証明をOpusに渡したら、同等性を確認してくれた。答えは「はい」。矛盾のために仮定しよう、$\epsilon > 0$ が存在して、すべての $k$ に対して、合同類 $a_1^{(k)}, \dots, a_k^{(k)}$ の選択があって、最初の $k$ の合同式でカバーされていない整数の集合が少なくとも $\epsilon$ の密度を持つとしよう。各 $k$ に対して、$F_k$ を最初の $k$ の合同式からカバーされていない集合が少なくとも $\epsilon$ の密度を持つ全ての無限の剰余の列 $(a_i)_{i=1}^\infty$ の集合とする。各 $F_k$ は空でない（仮定より）し、積位相で閉じている（最初の $k$ の座標のみに依存するから）。さらに、合同式を追加するとカバーされていない集合は減るから、$F_{k+1} \subseteq F_k$ だ。有限集合の積のコンパクト性により、$\bigcap_{k \ge 1} F_k$ は空でない。無限の列 $(a_i) \in \bigcap_{k \ge 1} F_k$ を選ぼう。この列に対して、$U_k$ を最初の $k$ の合同式でカバーされていない整数の集合とし、$d_k$ を $U_k$ の密度とする。すると、すべての $k$ に対して $d_k \ge \epsilon$ となる。$U_{k+1} \subseteq U_k$ だから、集合 $U_k$ は減少していて周期的で、その交差 $U = \bigcap_{k \ge 1} U_k$ の密度は $d = \lim_{k \to \infty} d_k \ge \epsilon$ となる。しかし、仮定によれば、任意の剰余の選択に対して、カバーされていない集合の密度は $0$ であり、矛盾が生じる。したがって、すべての $\epsilon > 0$ に対して、ある $k$ が存在して、すべての合同類の選択 $a_i$ に対して、最初の $k$ の合同式でカバーされていない整数の密度は $\epsilon$ より小さい。 \boxed{\text{はい}}

└

エルゴディック理論やディニの定理に全く詳しくない私が、ディープシークの証明はなんとか理解できるのに、GPT-5.2の証明は全然理解できないのが面白い。ディープシークの証明を検証しようとしたら、GPTの用語に深入りしないといけない気がするから、もしかしたらGPTの方が基礎理論についてもっとストレートに説明してるのかもね。

└

この分野には詳しくないけど、ディープシークが既存の解をただ暗記してるだけの可能性はあるのかな？それとも違うのかな。

└

> その後、両方の証明をオーパスに渡したら、等価性を確認してくれたよ。数学的な厳密さから言えば、自分でゴム印押せばよかったんじゃない？細部にこそ問題があって、ちょっとした問題が全体の証明を崩しちゃうんだよね。

└

ここに、キミ-k2の思考と推論ブロックが含まれてるよ。

└

「$U_{k+1} \subseteq U_k$なので、集合$U_k$は減少していて周期的であり、その交差点$U = \bigcap_{k \ge 1} U_k$は密度$d = \lim_{k \to \infty} d_k \ge \epsilon$を持つ。」これで十分かな？$U_k$を、全ての1<n<kに対して6^nでの剰余が2^n以上の整数の集合とすると、各$U_k$の密度は1/2を超えてると思うけど、交差点は空集合だよね？

└

Opusは数学関連には向いてないよ。最新のChatGPTやGemini Proよりも数学が苦手だし。

誰かエルデシュ問題の性質についてもう少し詳しく教えてくれない？これらの問題は、多くの数学者が何年も取り組んできたけど結果が出ないものなの？それとも、ほとんどの時間、注目されずに放置されている問題もあるの？編集: 誰かがテレンス・タオのウィキページに投稿したリンクを読んだ後、彼がこの質問にある程度答える段落があった: > エルデシュ問題は難易度が広範囲にわたる（数桁の違いがある）、非常に興味深く、しかし極めて難しい問題のコアが一端にあり、もう一端にはあまり探求されていない「ロングテール」の問題があり、その多くは現在のAIツールで攻撃するのに非常に適した「低い果実」だ。残念ながら、特定の問題がどのカテゴリーに属するかを事前に判断するのは難しい、専門家による文献レビューなしでは。（ただし、もしエルデシュ問題が文献に一度しか記載されておらず、その問題に関するフォローアップの記録がほとんどない場合、その問題は第二のカテゴリーに属する可能性がある。）ここから: https://github.com/teorth/erdosproblems/wiki/AI-contribution...

└

エルデシュは信じられないほど多作な数学者で、彼の特徴の一つはオープンな問題を集めて新しい問題を提起することだった。彼が懸賞金をつけた問題は、5ドルから1万ドルまで様々。これらの問題はAIの良い指標になると思う。なぜなら、簡単な問題は「トップの数学者が即座に解けなかった」って基準を満たすし、難しいものは主要なオープン問題だから。AIが進化するにつれて、徐々に難易度の階段を上っていくのが見られるだろう。

> 以前の解決策は見つかりませんでした。これはもう真実ではなく、以前の解決策が見つかったので、LLMの証明はテレンス・タオのウィキのセクション2に移動されました。 [1] - https://www.erdosproblems.com/forum/thread/281#post-3325 [2] - https://github.com/teorth/erdosproblems/wiki/AI-contribution...

└

テレンス・タオの言葉を借りると、「新しい証明は文献の証明とはかなり違う」ってことが面白いよね。それに、エルデシュ自身がその証明をしたのに、オープンプロブレムとしてリストアップしてたのがさらに奇妙だよ。

└

これがこの問題がどれだけ重要でないかを示してるね。以前の解は存在してたけど、誰も知らなかったみたい。みんなあんまり気にしてなかったからね。もし文献の中から古い解を探すだけで進展があるなら、それは進展が幻想だっていう良い証拠だよ。エルデシュの問題でこういうことが起こるのはこれが初めてじゃないし。純粋数学は、内在的な重要性がないきれいな論理パズルを解くことに多くが費やされてるみたい。非常に頭のいい人たちのためのレクリエーションパズルだね。あるいはLLMのために。

これらのLLM証明の驚くべき割合がアマチュアから出てきてるね。プロの数学者がキャリアのためにクレジットなしでLLM証明を発表することを選んでるのかもしれない。

└

おそらく「このLLMは、私が専門にしてることに関してはちょっとバカだな」っていう永遠の観察から来てるんだろうね。

└

どのように帰属を示すのが正しいのか、実はよく分からないな。単一の行を謝辞に使うのがいいかな？例えば、ブレインストーミング中に@を使うことはできるけど、各レマで感謝するのが正しい慣習かどうかは不明だし… 個人的には、数学のポスドクとしてGPT 5.2は他のどのツールよりも質的に強いと思ってる。幻覚の発生率が低いから、どんな解決策も間違いを隠そうとしているとは感じない。解決できないときのGemini 3は、いつも「嘘をつく」ことで解決策があるふりをするけど、GPT 5.2は通常は優雅に失敗するし、間違いを指摘されると大抵は認めるよ。

個人的には、AIモデルには自分の主張を証明してほしいな。何度も最先端のモデルが「これで100%正しいコードが企業品質で用意できたよ」って言うけど、実際に動かすとクラッシュすることが多い。もしかして、AIは冗談を言ってるのかな？例えば、z.aiを試してみたくてクレジットを買おうとしたんだけど、FirefoxでuBlock使ってたら決済が通らなかった。Chromeで広告ブロックなしで再試行したら、今度は「決済失敗: p.confirmCardPaymentは関数じゃない」ってエラーが出た。皮肉なことに、z.aiは自分たちの良さを売り込んでるのに、結局売上が上がらないっていうね。これからもこういうことが増えそう。LLMは素晴らしい新技術だけど、過剰に期待されすぎてる気がする。

└

AIにコードが正しいことを証明させる方法は、人間に証明させるのと全く同じだよ。テストや証拠（スクリーンショットや成功した実行のログ）を通じて示させるんだ。

エルデシュ728がハーモニックのアリストテレスで解決されたっていう投稿が1週間ちょっと前にあったけど、これは最先端のAI技術を使ってこの分野のスピードを上げる良い例だと思う。これが何を証明しているのかは分からないけど、ChatGPT 5.2に質問を投げたら、ほぼ1時間後に正しい回答が出たんだ。これって再現性あるの？どうしてこの解決策が出たの？その推論の中でどうやってつながりを見つけたの？見た目は正しいし、タオの承認があるから信頼性はあるけど、ここで何を確立したのかが分からない。ChatGPT 5.2が訓練されたコーパスが純粋な数学に適しているってこと？これから何を学べばいいのか、ちょっと混乱してる。

chatgpt 5.3proを楽しみにしてる！いろんなプログラムの相談にchatgpt 5.2proを使ってるけど、すごく助かってるよ。

ハクソク

Erdos 281がChatGPT 5.2 Proで解決されました

Hackerたちの意見