世界を動かす技術を、日本語で。

エポックがGPT5.4 Proが最前線の数学のオープン問題を解決したことを確認

概要

  • FrontierMathのオープン問題「H(n)の下限改善」にAIが画期的な解決策を提示
  • Kevin BarretoとLiam PriceがGPT-5.4 Proを活用して新しい構成法を発見
  • Will Brianによる確認と今後の論文化予定
  • 新手法は従来の非効率性を排除し、上下限の一致精度が向上
  • 問題の詳細や今後の展望について解説

FrontierMathオープン問題「H(n)下限改善」AIによる解決

  • 問題の内容: 無限級数の同時収束 に関するハイパーグラフ理論問題
  • H(n)の定義: 孤立点を持たず、サイズnを超える分割を含まない最大頂点数k
  • 目標:従来より 優れた下限 を与えるハイパーグラフ構成法の発見
  • 既知の下限は 非効率的 であり、より良い構成が期待されていた
  • AIモデル(GPT-5.4 Pro等)が 新構成法 を提案し、専門家によって検証

解決の詳細と意義

  • Kevin BarretoとLiam Priceが GPT-5.4 Pro を利用し最初の解答を導出
  • Will Brian(問題提案者)が 正しさを確認 し、論文化を予定
  • 新構成法は従来の下限構成の 非効率性を解消
    • 上限構成の複雑さを 鏡映するような形 で下限も精緻化
  • 上下限が 良い一致 を見せ、Ramsey理論的にも興味深い結果
  • AIのアプローチが 新たな発展 や追試を促進

今後の展望と影響

  • 問題解決による 論文発表 が予定されている
  • BarretoとPriceは 共著者 として論文に参加可能
  • AIのアイデアが 更なる研究の端緒 となる可能性
  • FrontierMathの他モデル(Opus 4.6, Gemini 3.1 Pro等)も 同問題に成功

問題の技術的な要点

  • ハイパーグラフ(V, H)で 分割のサイズn を超えない構成を探す課題
  • 既知の帰納公式: k₁=1, kₙ=⌊n/2⌋+k_⌊n/2⌋+k_⌊(n+1)/2⌋
  • これを 定数倍改良 する構成法のアルゴリズムが求められていた
  • AIは c>1 となる新しい下限を与えるアルゴリズムを提示
  • 構成例やPythonスクリプト形式での 具体的な出力 が要求される問題設定

まとめ

  • 本問題の解決は 専門分野での注目度が高く、今後の理論的発展にも寄与
  • AIによる解決策は 数学研究の新潮流 を象徴
  • 今後の論文やさらなる応用に期待

Hackerたちの意見

この解決の後、私たちはFrontierMath: Open Problemsでモデルをテストするための一般的なスキャフォールドの開発を終えました。このスキャフォールドでは、他のいくつかのモデルも問題を解決できました:Opus 4.6(max)、Gemini 3.1 Pro、そしてGPT-5.4(xhigh)。面白いですね。「スキャフォールド」って何ですか?証明のためのユニットテストフレームワークみたいなもの?

この文脈では、スキャフォールドは実際のモデルを囲むハーネスのことだと思います。例えば、ツールやタスクの配置方法、自動批評のメソッドなどです。スキャフォールドによってモデルのパフォーマンスにかなりのばらつきがあると思うので、比較はいつも少し曖昧ですね。

高計算の並列思考モデルは必要なかったみたいで、普通の5.4とGemini 3.1 Proが解決しました。なぜかGemini 3 Deepthinkは解けなかったけど。

数学にちょっと触れた程度の私にとって、このセクションが一番面白かったです:> 著者は問題を次のように評価しました。> [数学者の数、試みた数、専門家がかかる時間、注目度など] これらのことを事前にどれくらい確実に知ることができるのでしょうか?これらはほとんど推測ですか?推測の価値を軽視するつもりはないですが、こういう推測がどれくらい信頼できるのか気になります。

ポール・エルデシュについて読んでみて。数学はリーマン予想だけじゃないし、いろんなことをつなげる地道な作業もあるんだよね。

数学者がその問題に詳しくて積極的に取り組んでいる数は、現代数学の研究がすごく専門的だから、誰が似たような問題に取り組んでいるのか把握しやすいよ。お互いの論文を読んだり、同じ会議に行ったりするしね。「専門家が問題を解くのにどれくらいかかるか」という質問については、本当にオープンな問題に関しては、解決されるまで自信を持って答えるのは難しいと思う。でも、一度解決されれば、経験のある人はどれくらい時間がかかったかをよく分かっているよ(ただ、多くの人は必要な時間を過小評価しがちだけど、予期しない課題に直面することが多いからね)。

確かに、あなたが見ている問題にどれだけの人が取り組んでいるのか、そしてそれを解くのにどれくらいの時間がかかるのかを知ることは、研究者として働く上で重要なスキルだよね。どんな答えを求めてるの?定量化するのは難しいよ。ほとんどの人は、博士課程の学生の時にこの評価が苦手で、時間が経つにつれて上達していくんだ。

解決策が見つかるまでに消費されるトークンの数が問題の難しさの指標だと想像していますが、Opus 4.6は約25万トークンを消費したみたいです。つまり、今日職場でやったちょっと厄介なReactのリファクタリングは、数学のオープンプロブレムの半分くらいの難しさだったってことですね! :)

冗談かもしれませんが、現実からそんなに遠くないと思います。もっと多くの人がAIが数学の問題を「解決」するというこのナンセンスに疑問を持つべきだと思います。人間の関与に関する詳細はいつも曖昧で、問題の重要性はほとんどの人には不透明です。私たちは、ここで何か奇跡的なことをしているというセンセーショナルで強く暗示された考えからは、かなり遠いです。

明日もう一度リファクタリングを試してみて。もしかしたら、簡単になってるかもしれないし、逆に難しくなってるかもしれないよ。

だから、コンテキスト管理がすごく重要なんだよね。トークンを無駄に使うと、AIが高くなるだけじゃなくて、パフォーマンスも悪くなるかもしれない。コンテキストサイズが大きくなっても、これは関係してくると思う。特に、AIプロバイダーがいつでもトークンの価格を引き上げる可能性があるからね。

冗談でしょ?でも、もしかしたら本当かも?数学の多くの分野は、まず第一に、信じられないほど難解でアクセスしづらいんだよね(他の数学者にとっても)。この件について、著者は解こうとした人が5~10人くらいしかいないかもしれないって言ってた。さらに、著者は、資格があってちょっと頑張れば解ける問題だと信じているみたい。ソフトウェアエンジニアリングでは、もし世界中で特定のプログラムのアイデアに触れたのが5~10人だけなら、その実装が存在しないのも驚くことじゃないよね、複雑さに関係なく。やりたいと思っても、他のことに気を取られて完成できなかったソフトウェアがたくさんあるし。もちろん、こうやってコードを書いたり数学を解いたりできるシステムがあるのは奇跡的なことだけどね。

私のようにプロンプト自体に興味がある人のために… > GPT-5.4 Proとの元の会話の完全なトランスクリプトはここで見つけられます [0]、そしてそのトランスクリプトの最後にあるGPT-5.4 Proのまとめはここで見つけられます [1]。 [0] https://epoch.ai/files/open-problems/gpt-5-4-pro-hypergraph-... [1] https://epoch.ai/files/open-problems/hypergraph-ramsey-gpt-5...

コードとClaudeにコラッツ予想の証明をIsabelleで書かせようとしたんですが、うまくいかず、始めた時と比べて進展がない気がします。AIは役に立たない!真面目な話、これはかなりクールです。証明の「サイズ」のせいで解決されていない理論的な数学がたくさんあると思います。IsabelleやLeanのようなものへのAIのフィードバックループは、多くの証明を開く可能性があるように思えます。

ジェミニを使って整数因数分解の多項式時間アルゴリズムを見つけたんだけど、謎にGoogleアカウントからロックアウトされちゃった。少なくともトークンは返金してほしいな。

AIが難しい問題や革新が必要な問題の答えを出せるまでは、ずっとAIに懐疑的だったんだけど、これが正しいと確認できるなら、信じることにしたよ。もっとAIの発明を見てみたいけど、ほんとに新しくてワクワクする世界だね。この知的資源を使って、世界を良くする方向に進んでほしいな。

問題を解くというより、全ての解法を試してみる感じだね。徹底的な探索ってやつ。僕の経験からすると、AIが難しい問題を解くのはほぼこういう感じだよ。

AIはリミキサーみたいなもので、既存のアイデアを組み合わせるだけなんだ。新しいアイデアは出てこないけど、LLMは文脈に基づいて最も可能性の高い次のトークンを予測するだけなんだよね。それって、出力される文字の組み合わせが過去にかなり一般的だったことを意味してる。自分が見たことのない新しい文字の組み合わせを勝手に加えることはないんだ。

数学やコーディングのコンペ問題は、厳密なルールと安価な検証のおかげでトレーニングしやすいんだ。でも、コードの品質みたいな、もっと定義が曖昧なことに進むと、人間でも具体的な公理を定めるのが難しいから、AIは幻覚を見始めて、あんまり役に立たなくなるんだよね。AlphaGoが人間の動きでトレーニングされた中級プレイヤーから超人に進化したのは、自己対戦による価値関数のおかげなんだけど、今は無監督学習しか進展がないし、強化学習も制約があるから、これが良くなるとは思えないな。

問題なのは、AI業界が自分たちの成果について嘘をついて、テストで不正をしているのがあまりにも多いから、彼らが結果を達成したと言っても本当に信じられないってこと。彼らはハイプを追求する中で、すべての信頼性を失ってしまったんだ。

生まれ変わったAI信者、ため息

100% 世界を良くするためには使われないし、最初に人を殺すために武器化されるってみんな知ってるよね。

AIに懐疑的な人と信じている人、これだけ?

なんで僕が人間が何か特別だっていう前提にいつも驚いているのか、よく分からない。これが知性とは何かについての議論の根底にある広がった信念なんだよね。帰無仮説は無視されちゃう。人々は「ただいろんなことを試してみて、何かがうまくいくまでやってるだけだ」ってコメントをするけど、それが人間にも当てはまるかどうかを考えることはないみたい。もし考えても、現実の2次元の風刺画のような制限された方法でしか適用しないんだ。人間が学びや発見の過程でどれだけ試行錯誤するかを考慮することはない。科学や経験的なことを中心にしているコミュニティでも、魔法や人間の特別性に対する信念が根強く残っているみたい。

なんで人間が特別だっていう前提がずっと続いてるのか、未だに驚いてる。うーん、今までずっとそうだったからじゃない?

数百万冊の本やインターネット上の全てのテキストを吸収せずに学習して推論できる能力は、確かに私たちを特別にしてるよね。そして、たった20ワットで!

Re: 「なぜ人間が特別だという前提がずっと続いているのか、未だにショックを受けるのか分からない。」この前提がなぜ今でも成り立っているのか、これを見れば少しは理解できるかもよ:https://en.wikipedia.org/wiki/Orchestrated_objective_reducti...

この成果が意味を持つのは、人間が問題を考え、AIと協力して結果を確認したからこそなんだよね。AIが「自分の仕事をチェックする」って言っても、車を洗うために洗車場に車が必要かどうかで行ったり来たりしてるのを見ると、ほとんど関係ないように思える。間違った結果や理解できない結果をAIに渡している人たちが何ヶ月も何年もいるけど、どちらにしても人間の確認が必要なんだ。AIは、他の場所で説明されている社会問題以外の新しい問題を提示していないし、自分の目標を追求することもないから、「実際に達成されたかどうか」も分からない。これがこの小さくて素晴らしい進展のコストについて何も言っていないことは言うまでもない。数兆ドルのトレーニングと推論があって、今のところはちょっとした数学の解決策がいくつかあるだけ。もし誰かが1年分の博士課程の資金を出してくれたら、AIなしでも解決できたと思うよ。

なぜ人間が特別だという前提がずっと続いているのか分からない。経験的に見ても、私たちには明らかに多くのユニークで差別化可能な特性があるからだよね。これを理解するのにはたくさんの時間がかかるし、神経科学や認知科学の若いけど厳密な分野がある。もし「根本的にユニーク」って意味なら、例えば「人間がすることは何もできない」ってことになるのかな。> 「ただいろんなことを試して、うまくいくまでやってるだけだ」ってコメントをよく見るけど、それが人間にも当てはまるかどうか考えることすらしないみたいだね。正直、どちらのシステムにも当てはまるとは思えない。私は機能主義者だから、人間の脳がすることはすべて物理的で、必要な機能を示す他の材料で再現できると信じているけど、それが知性の外見が常に知性であるべきだとか、LLM/エージェントが人間がすることをしているとは限らないって意味ではないんだ。

彼らの「オープンプロブレムページ」は、面白いコンテキストを提供してるよ。全部で15のオープンプロブレムがリストアップされてて、「やや興味深い」「確かな結果」「大きな進展」「ブレークスルー」に分類されてる。解決された問題は「やや興味深い」としてリストされてて、これは多分一番簡単なカテゴリーだね。でも、この問題が解決される前に選ばれて投稿されたのは注目に値するよ。このカテゴリーの他の3つの問題が解決されるまで、どれくらいかかるのかな。 https://epoch.ai/frontiermath/open-problems

これがゴールポストの移動じゃないことを願ってるけど、言語モデルが何らかのオープンな数学問題を解決するのは、完全にSFだよ。

LLMが消費者向けソフトウェアを成功させるよりも、高度な数学の定理を証明する方が成功しているって、すごく驚きだよ。