概要
ARC-AGI-3 は、AIエージェントの汎用知能を評価するための 対話型推論ベンチマーク。 AIが 未知環境で学習・適応 する能力を重視。 人間と同等の効率 で全ての課題を解決できるかを測定。 経験学習・長期計画・適応力 が評価対象。 AGI実現とのギャップ を定量的に示す設計。
ARC-AGI-3とは何か
- ARC-AGI-3 :AIエージェント向けの インタラクティブな推論ベンチマーク
- 未知の環境 を探索し、その場で 目標を取得・適応 する能力評価
- 静的なパズル ではなく、環境内で 経験から学習 し続ける形式
- 自然言語の指示 に頼らず、 自律的な戦略選択 が求められる
- 100%スコア :人間と同等の効率で全ゲームをクリアできる状態
知能の測定方法
- 全環境が人間に解ける 設計
- スキル獲得効率 の経時的評価
- 長期的な計画力 と 希薄なフィードバック への対応力
- 複数ステップにわたる経験主導の適応力 測定
- AIと人間の学習ギャップ が存在する限りAGI未達成とみなす
- 時間軸での知能評価 :最終解答だけでなく、 計画・記憶・信念更新 の能力を重視
設計原則
- 人間がすぐ理解できる シンプルな設計
- 事前知識や隠れたプロンプト を排除
- 明確な目標 と 意味のあるフィードバック の提示
- 単純な暗記が通用しない新規性 の確保
主な特徴
- リプレイ機能 :エージェントの行動履歴を タイムラインで可視化
- 開発者向けツールキット :エージェント統合用APIと インタラクティブUI
- 透明性の高い評価環境 :行動・意思決定・推論過程の追跡が可能
リプレイと評価
- 行動・意思決定・推論 の流れを プレビューリプレイ で確認
- 構造化タイムライン によるエージェント行動の詳細追跡
ツールとUI
- ARC-AGI-3ツールキット でエージェントを統合
- インタラクティブUI でテストと反復評価が容易
ドキュメントと導入ガイド
- エージェント構築用資料 :環境仕様、API利用法、統合ガイド
- 公式ドキュメント の参照推奨
まとめ
- ARC-AGI-3 は 人間並みの汎用知能 を目指すAI評価基準
- 経験学習・適応・計画力 といった本質的な知能要素にフォーカス
- AGI実現までの進捗 を定量的に把握するための重要なベンチマーク