世界を動かす技術を、日本語で。

ARC-AGI-3

概要

ARC-AGI-3 は、AIエージェントの汎用知能を評価するための 対話型推論ベンチマーク。 AIが 未知環境で学習・適応 する能力を重視。 人間と同等の効率 で全ての課題を解決できるかを測定。 経験学習・長期計画・適応力 が評価対象。 AGI実現とのギャップ を定量的に示す設計。

ARC-AGI-3とは何か

  • ARC-AGI-3 :AIエージェント向けの インタラクティブな推論ベンチマーク
  • 未知の環境 を探索し、その場で 目標を取得・適応 する能力評価
  • 静的なパズル ではなく、環境内で 経験から学習 し続ける形式
  • 自然言語の指示 に頼らず、 自律的な戦略選択 が求められる
  • 100%スコア :人間と同等の効率で全ゲームをクリアできる状態

知能の測定方法

  • 全環境が人間に解ける 設計
  • スキル獲得効率 の経時的評価
  • 長期的な計画力希薄なフィードバック への対応力
  • 複数ステップにわたる経験主導の適応力 測定
  • AIと人間の学習ギャップ が存在する限りAGI未達成とみなす
  • 時間軸での知能評価 :最終解答だけでなく、 計画・記憶・信念更新 の能力を重視

設計原則

  • 人間がすぐ理解できる シンプルな設計
  • 事前知識や隠れたプロンプト を排除
  • 明確な目標意味のあるフィードバック の提示
  • 単純な暗記が通用しない新規性 の確保

主な特徴

  • リプレイ機能 :エージェントの行動履歴を タイムラインで可視化
  • 開発者向けツールキット :エージェント統合用APIと インタラクティブUI
  • 透明性の高い評価環境 :行動・意思決定・推論過程の追跡が可能

リプレイと評価

  • 行動・意思決定・推論 の流れを プレビューリプレイ で確認
  • 構造化タイムライン によるエージェント行動の詳細追跡

ツールとUI

  • ARC-AGI-3ツールキット でエージェントを統合
  • インタラクティブUI でテストと反復評価が容易

ドキュメントと導入ガイド

  • エージェント構築用資料 :環境仕様、API利用法、統合ガイド
  • 公式ドキュメント の参照推奨

まとめ

  • ARC-AGI-3人間並みの汎用知能 を目指すAI評価基準
  • 経験学習・適応・計画力 といった本質的な知能要素にフォーカス
  • AGI実現までの進捗 を定量的に把握するための重要なベンチマーク

参考資料:ARC-AGI-3 Technical Report (PDF)

Hackerたちの意見

いくつかのレベルをプレイしてみた結果、私は絶対にAGIじゃないって思った。

「AGI」のハードルを低く保ってくれてありがとう。機械たちは君の貢献を感謝してるよ。

これが、あなたが慣れていない形式の試験を意味することを忘れないでね。具体的には:- オープンブックで、ほぼ全てのインターネットやリソースにアクセスできる。例えば、ほぼすべての本や研究論文のトレント、過去のテストの歴史を含めて - ほぼ時間制限がないと言える。スレッドを使ってアクセスを並列化することで、キャッシングがすごく効率的にできるから - 正しい答えが出るまで大量の間違った回答を提出することに恥じる必要はない... だから、これが「簡単」だとは言わないけど、私が昔試験を受けるときに使っていた典型的な方法とは全然違うって言えるよ。

NGI - 自然一般知能

SGI - サブ一般知能、またはウォールストリートベッツのユーザー間でよく見られるもっとカジュアルな言葉。

https://x.com/scaling01 はARC-AGI-3に関するいろんな問題を指摘してるよ。その中には(ツイートから直接コピーしたものもあって、最小限の編集しかしてないけど)こんなのがある: - 人間の基準は「アクション数で見た場合の2番目に良い初回人間」と定義されてる。君の「普通の人」はパズル解決のためにサインアップした人たちで、スコアは人間の平均と比べるんじゃなくて、2番目に良い人間の解法と比べるんだ。 - スコアリングはモデルがどれだけレベルをクリアしたかじゃなくて、人間と比べてどれだけ効率的にクリアしたかを示してる。効率の二乗を使ってるから、人間が10ステップで解決した場合、モデルが100ステップかかると、モデルのスコアは1%になる((10/100)^2)。 - 100%はすべてのレベルが解けることを意味するだけ。1%の数字は、各レベルの2番目に良い人間のスコアに基づいて全く異なる、非常に歪んだスコアリングを使ってる。彼らは、典型的なレベルはテストを受けた10人中6人が解けると言ってるから、中央値の人間がパズルの約60%を解けると仮定しよう(ちょっと違うけど)。中央値の人間が君の2番目に速い解決者より1.5倍多くステップを踏むとしたら、中央値のスコアは0.6 * (1/1.5)^2 = 26.7%になる。じゃあ、下位10%の人は、たぶん30%のレベルを解けるけど、解くのに3倍のステップがかかる。この人は3%のスコアになる。 - スコアリングは、AIが人間レベルでパフォーマンスを発揮しても100%未満のスコアになるように設計されてる。 - 全くハーネスなしで、非常にシンプルなプロンプト。 - モデルは人間が使ったステップの5倍以上は使えない。 - 後のレベルに重みを高くしてるのも気づいた?ベンチマークは継続的な学習のブレークスルーを検出するために設計されてる。1年後くらいにそれが起こったら、「見て、うちのベンチマークがそれを示した。私たちだけだった」と言うだろうね。

全くハーネスなしで、非常にシンプルなプロンプト。確かに、基本的にそれがKaggleコンペの目的だよね。彼らがやってることをそのまま持ってきて、最先端のLLMをつなげれば、限られたGPUとオープンモデルで人間ができることよりも良い結果が出るはず。

まあ、要するに、AIはコンピュータの計算能力を利用するならAIじゃないってことだよね。AGIが人間と同じ結果を出すのに、わざわざ「サンプル効率」を人間並みにする必要はないと思うんだ。

ここフランソワです。スコアリングメトリックの設計選択については技術報告書に詳しく書いてあるよ: https://arcprize.org/media/ARC_AGI_3_Technical_Report.pdf  このメトリックは、単純な力技の試みを割引いて、チュートリアルレベルではなく、より難しいレベルを解決することを評価するためのものなんだ。ロボティクスのナビゲーションからインスパイアされたSPLメトリックに基づいていて、結構標準的なものだよ。サンフランシスコで90分のセッションを通じて約500人の人間をテストしたんだけど、報酬は115ドルから140ドルで、解決したゲームごとに5ドルプラスだった。テスターの大半は失業中か、十分に雇用されていない人たちだったよ。スタンフォードの大学院生をテストしたわけじゃないからね。多くのAIベンチマークは、専門家のPh.D.を基準にしているけど、うちは普通の人をテスターとして雇ってるんだ。それぞれのゲームは10人に見てもらったんだけど、2人から8人が全レベルをクリアしていて、大体は5人以上だったよ。人間の基準は、最適な初回プレイよりもかなり少ないアクション数の2番目に良いものなんだ。これは非常に達成可能で、この掲示板のほとんどの人はそれを大幅に上回ると思うよ。難易度を感じたいなら、自分でゲームを試してみて。 > モデルは人間が使ったステップの5倍以上は使えない これは「ステップ」じゃなくて、ゲーム内のアクションだよ。モデルはAPIの背後で好きなだけ計算やツールを使えるんだ。モデルは人間と比較して効率でスコアがつけられるから、カットオフは最終スコアにはほとんど影響しないよ。カットオフがあるのは、これらの実行が非常に高価だからなんだ。 > まったくハーネスがなくて、非常にシンプルなプロンプト これは論文で説明されているよ。引用すると、「我々は一般知能を、システムが特に設計または訓練されていない問題に対処する能力と見なしています。これは、公式リーダーボードがARC-AGI-3を直接ターゲットにしたスコアの増加を可能な限り割引くことを目指すことを意味します。」...「我々は、人間の指示を大量にハーネスに注入したり、どのツールを使うかなどのハーネス設定を手作業で作成したりすることで、ARC-AGI-3のパフォーマンスを人工的に向上させることが可能であることを知っています(他のドメインのパフォーマンスを改善することなく)。ARC-AGI-3の目的は、ARC-AGI-3特有のシステムを設計するために投入された人間の知能の量を測定することではなく、最前線のAIシステムの一般知能を測定することです。」...「したがって、我々はARC-AGI-3のために特別に準備されていないシステムのパフォーマンスを報告することに焦点を当てます。これは、ARC-AGI-3についての事前知識がない状態で、我々のテストセンターに初めて訪れる人間の受験者のパフォーマンスを見ているのと似ています。こうした受験者が、事前のトレーニングや解決戦略についての説明なしに、外部ツールを使わずにARC-AGI-3の環境を初めて接触したときに解決できることがわかっています。」もしそれがAGIなら、新しいタスクに適応するために人間の介入は必要ないよ。ハーネスが必要なら、自分で作れるし、ツールが必要なら、それを持ち出すこともできるんだ。

それが問題なの? あなたのリストを読んで、ARC-AGIに対する印象がむしろ良くなったよ。どれもこれも、正しい方向に進んでる感じがする。

「非常に単純なプロンプト」は、この全体の核心であり、全体の有効性を保証するものだよ。一般的な知能を測ろうとしているなら、一般的である必要がある。

逆に、これによってLLMが高得点を取るのがずっと難しくなって、その得点がさらに印象的になるね。

AIと人間の学習の間にギャップがある限り、私たちはAGIを持っていない。90年代にScientific AmericanにAIに関する記事があった - 確か、ディープブルーがカスパロフに勝った頃だったと思う。一人のAI研究者の言葉が印象に残ってる。「飛行機が鳥のように翼を羽ばたかせないから飛ばないと言うのは馬鹿げている。」彼はチューリングテストについて言ってたけど、この感情はここでも同じように当てはまると思う。人間がXをできて、LLMができないからって、LLMの「知性」を否定することにはならないし、LLMが人間よりもタスクをうまくこなすからって、人間の知性を否定することにもならない。

その議論の明らかな欠陥は、飛行は空中で動くことによって定義されるのに対し、知性は人間の知性を基準に定義されることが多いってことだよね。新しい意味を考案することはできるけど、それはちょっと不誠実に感じる。

私にとって、AGIに関する「もうそこにいるの?」っていう議論はすでに終わってる。約1.5年間使ってきたツールは、すでに私にとって非常に役立ってるから、もう気にしない。ある人にとっては、もうそこにいるし、他の人にとっては決してそこには行けない。定義は変わるし、ゴールポストも動くし、などなど。その間に、ASの話も出てきてる(自己改善とか)。でも、arc-agiコンペは面白いよ。自分たちの立ち位置を確認できるし、ベンチマークが完全に飽和してない月もあるからね。そして、スレッドの他の誰かが指摘してたように、これらのゲームは「彼らが求めているメタ」を理解するまでは、決して簡単ではない。

また、ダイクストラの名言もあるよね(https://www.cs.utexas.edu/~EWD/transcriptions/EWD08xx/EWD867...): > アラン・チューリングでさえ、コンピュータが考えることができるかどうかの議論に引き込まれた。問いは、潜水艦が泳げるかどうかという問いと同じくらい関連性があり、意味がある。 (私は思考の問いが泳ぎの問いよりも少し関連性があると思うけど、これがどこから来ているのかは理解してる。)

たぶん、ほとんどの人間と一部のAIが「知的」と見なされるための第三の基準があると思う。多くの人間は本質的にpゾンビだから、その基準を満たさないかもしれない。もしかしたら、すべての人間がそうかも。私もそうかもしれない。

知能が人間だけのものだとは考えにくいよね。それに、結局はその出力の有用性が価値を決めるから、あまり重要じゃないと思う。ただ、意識に関する道徳的な問題があって、それを解決するのは人間には難しいみたいだ。だから、道徳的にはAIが意識を持っていると仮定するのがデフォルトの立場になる。だけど、みんなその結論が本当に嫌いなんだよね。

AIと人間の学習の間にギャップがある限り、AGIは存在しない。これはLLMに対する人間のダンクや哲学として読むべきではない。このギャップは特別で壊滅的な経済的影響があるから重要なんだ。ギャップが本当にゼロになると、すべての人間の知識労働が置き換え可能になる。そこからロボットが加われば、すべての仕事が置き換え可能になるのはあっという間だ。さらに悪いことに、その条件は十分であっても必要ではない。飛行機が羽ばたかずに飛べるように、経済は完全なAGIなしでも崩壊することができる。

AGIのGって何の略か知ってる?一般知能だよ。飛行機を空中の一般的な多様性で測ると、鳥には勝てない。エネルギー消費で測ることもできる。測れることはたくさんあるけど、その中には無意味なものも多いし、HNの記事も無意味なものが多い。測る理由はちゃんとあるよ。飛行機に隣の家まで運転してもらったり、スーパーで買い物してもらったりはしないよね。飛行機は君のように一般的に移動できるわけじゃないけど、君の移動性を高めてくれる。

じゃあ…計算機は知能があるの?高校で算数101に落ちた会計士は知能があるの?一般的に知能があるの?

これがAGIとどう関係しているのか、よくわからないな。これはLLMが特定のクラスのゲームで成功する能力を測っているんだよね。確かに、それはLLMがどれだけ強力か(あるいは一般的に強力か)を示す価値のある指標かもしれない。でも、人間が同じクラスのゲームが得意かどうかはわからないよね。人間のゲーム(チェッカーやチェス、囲碁など)を含むクラスのゲームがあって、コンピュータ(LLMじゃなくて!)はすでに人間を大きく上回っていることはわかっている。だから、LLMが「AGI」かどうかの議論は、LLMが特定のクラスのゲームでうまくいくかどうかではなく、そのクラスのゲームが「AGI」を代表するものかどうか(それをどう定義するかは別として)であるべきだと思う。実際的、哲学的、ビジネス的な応用において、このゲームセットが意味のある定義になるとは思えないな。

「AGI」はマーケティング用語で、こういったベンチマークは「AI」ツールの相対的なパフォーマンス向上を促進するだけなんだ。共通のタスクでのパフォーマンスが実際に向上するわけではないし、このベンチマークで100%を達成したからといって「AGI」に到達したわけではないよ。だから、ビジネス的な応用はあるけど、実用的または哲学的な応用はないね。

これはARC-AGIの創作者が知能をどう定義したかに関係してる。ショレットは、知能とは未経験の状況でどれだけうまく行動できるかだと考えてるって言ってた。ARC-AGIは、LLMがその状況でどれだけうまく動作するかを測ってるんだ。

ARC-AGIのリーダーボードで一番感心するのは、グラフがタスクあたりのコストも考慮しているところだね。最近のベンチマークの大きな進展は、コストの急上昇を考慮すると、ちょっと印象が薄れる気がする。実際、もっと電力を使うことを厭わなければ、出力を少しでも良くすることはできるんだ。

これは良いし、賢いベンチマークだね。前の二つの後継としてもふさわしい。ただ、「ツールなし」アプローチはちょっと変だと思う。要するに、API層の裏に隠れていればツールがあってもいいってことだよね? これって変な線引きじゃない? ARC-AGI-3専用のツールがないことが重要なはずなのに、「組み込みじゃないツールはダメ」ってのはおかしい気がする。

このゲームセットの人間テスターだったと思う。90分で25ゲームやったよ。確か、指示にはアクション数を最小限にするようにって書いてあったけど、報酬(解決ごとに5ドル)で解決スピードが重視されてた。無駄に動かないように考えながらやってた記憶はあるけど、それが主な目標じゃなかったから、人間の解決策のベースラインは必要以上にアクションが多くなると思う。

これはAGIの非常に良い評価だね。人間とAIに同じ入力を与えて結果を測る。ARCがこれらのゲームを作ったのは素晴らしいことだ。なんでこんなに多くの人がこれに反対するのか本当に不思議だよ。AIが役に立つことはわかってるし、研究にもなることもわかってる。でも、彼らが我々が漠然と定義する知能かどうかを知りたいんだ。飛行機は翼を使わないとか、潜水艦は泳がないって話を読んだことがある。確かにそうだけど、そこが問題じゃない。こういう比較をする人は、自分のバイアスを見直すべきだと思う。これは人工一般知能についての話だから。ここでのキーワードは「一般」だ。ARCが測ろうとしているのはそれなんだ。役に立つかどうかはポイントじゃない。テスト後にAIが役に立つかどうかもポイントじゃない。今のところ、これが一番良いテストだと思う。そして、専門的な質問をAIに聞いて、自分が知ってる答えとどれだけ違うかを確認することをおすすめする。知識を知能として捉えることの方が、知能が欠けていると感じることよりも多いと思う。おそらく人間同士でも共通してるだろうね。

AGIの「一般」は間違った言葉だと思う。人間は一般的じゃなくて、ギザギザしてるんだ。ある分野では強いけど、他の分野では弱いし、すでに多くの領域で超えられてる。例えば、言語に関してはLLMはもう私たちを超えてるし、計算に関しては計算機が私たちを超えてる。

前のARC-AGIのバージョンはIQテストを思い出させるものだったけど、今回はあまりにも簡単すぎる。モデルがひどい結果を出すってことは、入力モードの不一致か操作モードの不一致があるってことだと思う。もしモデルの開発者がテキストを通じてコンピューターゲームをプレイするようにLLMを教えようとするなら、モデルのバージョンを少し変えるだけで解決するだろう。でも正直言って、彼らはそんなことに気を使わないと思う。あまりにも馬鹿げてるし、モデルがそこから何か有用なことを学ぶとは期待してないだろうから。特に、すでに8ビットゲームをプレイすることを学べるモデルがあるから、ARC-AGIはちょっと行き過ぎた感じがする。でも、ロボットのためにモデルを訓練している人たちは、これを軽く受け流すかもしれないね。

似たような「ベンチマーク」として、最近主要なLLMを自分のコーディングゲームでテストしてみたよ(モデルが1対1のRTSでユニットを制御するコードを書く) - https://yare.io/ai-arena