HNを表示: 私が構築したOSSエージェントがGemini-3-flash-previewのTerminalBenchでトップに立ちました
6時間前原文(github.com)
概要
- DiracはオープンソースのAIコーディングエージェントで、高精度・高効率を実現
- Terminal-Bench-2で65.2%のスコアを記録し、公式・有力モデルを上回る成績
- APIコストを平均64.8%削減しつつ、作業の正確性・速度も向上
- 複数ファイル同時編集やAST操作など高度な最適化機能を搭載
- チートなしの完全オープンソースで評価・検証が容易
Dirac: 高精度・高効率なオープンソースAIエージェント
- Diracは、コンテキスト長による推論精度低下問題を解決するために設計されたAIコーディングエージェント
- 重要な情報だけを厳選してコンテキストに含めることで、精度・コスト・大規模変更の一括処理性能の向上を実現
- APIコストを平均64.8%削減しながら、従来よりも高精度・高速な作業を提供
- ハッシュアンカー編集、AST操作、高度な最適化などを活用
- MCP(Minimal Command Prompting)非対応で、必要最小限のプロンプト設計を重視
主な特徴
- ハッシュアンカー編集:安定した行ハッシュを使い、従来の行番号ベース編集の誤差を回避
- ASTネイティブ精度:TypeScriptやPython、C++など言語構造を理解し、関数抽出・クラスリファクタリング等を100%正確に実行
- マルチファイルバッチ処理:複数ファイルを1回のLLMラウンドで編集し、レイテンシ・APIコストを大幅削減
- 高帯域コンテキスト:関連情報のみを厳選し、トークン消費を最小限に抑えつつ高速化
- 自律的なツール利用:ファイル読み書き、ターミナルコマンド実行、ヘッドレスブラウザ操作などを承認フロー付きで実施
- プロジェクト固有のカスタマイズ:AGENTS.mdや.ai/.claude/.agentsディレクトリからスキル・指示を自動取得
- ネイティブツールコール専用:信頼性・性能重視のため、ツールコール対応モデルのみサポート(MCP非対応)
ベンチマーク・コスト比較
- TerminalBench 2.0でgemini-3-flash-previewを使い65.2%スコアを記録
- Google公式(47.6%)、**Junie CLI(64.3%)**を上回る
- ベンチマーク固有情報やAGENTS.mdファイルの挿入なし
- 平均APIコスト:$0.18(他エージェント比で約2.8倍安価)
- 全タスク100%正解を複数回達成し、再現性も高い
- Clineリポジトリのバグによるコスト過小報告があったが、PR提出済みで今後修正予定
導入方法
- VS Code拡張機能:VS Code Marketplaceからインストール
- CLI(ターミナル):npmでグローバルインストール
- コマンド:
npm install -g dirac-cli
- コマンド:
- 認証:
dirac authで認証、または環境変数でAPIキーを設定- 対応APIキー:Anthropic, OpenAI, OpenRouter, Gemini, Groq, Mistral, x.ai, HuggingFaceなど
- 主なコマンド例
dirac "prompt":インタラクティブなタスク開始dirac -p "prompt":プランモード(戦略確認後に実行)dirac -y "prompt":Yoloモード(全自動承認、簡易修正向け)git diff | dirac "レビュー":変更内容を直接パイプdirac history:過去タスクの履歴・再開
ライセンス・クレジット
- Apache License 2.0の下でオープンソース提供
- ClineプロジェクトをベースにMax Trivedi(Dirac Delta Labs)が開発
ベンチマーク公正性に関する補足
- チート報告が多いTerminalBench 2.0において、Diracは完全に公正な方法で評価
- AGENTS.mdやskills.mdの挿入なし
- リーダーボード準拠のCLI実行、リソース・タイムアウトの改変なし
- 公開GitHubバージョンと同一のオープンソースコードで実施
- Pull Requestの承認遅延により公式リーダーボード反映が遅れているが、評価内容は公開済み
- 実験から、ベンチマーク環境(ハーネス)の影響が非常に大きいことが判明
まとめ
- Diracは高精度・高効率なオープンソースAIコーディングエージェント
- コスト削減・正確性・速度で業界トップクラス
- 誰でも再現可能な完全公開・チートなし評価
- 多機能かつカスタマイズ性も高く、現場導入も容易