コンピュータの使用は構造化APIの45倍のコストがかかる
7時間前原文(reflex.dev)
概要
- VisionエージェントとAPIエージェントによる管理パネル操作のコスト比較を実施
- Visionエージェントはスクリーンショットとクリック操作、APIエージェントはHTTPエンドポイント呼び出し
- Visionエージェントは明示的な手順指示なしではタスク完了不可
- APIエージェントは一貫して高速・低コスト
- API自動生成ツールの登場でAPI化の工数が大幅削減
VisionエージェントとAPIエージェントのベンチマーク比較
- 目的:Webアプリを操作するAIエージェントのコスト構造の明確化
- Visionエージェント:ブラウザ操作(スクリーンショット取得+クリック実行)
- APIエージェント:UIが呼び出すHTTPハンドラを直接叩く
- 同一タスク:「Smith」という顧客の注文・レビュー管理操作
- 顧客特定、注文検索、レビュー承認、注文完了処理
- フィルタ、ページネーション、クロスエンティティ参照、読み書き操作
- 比較条件:Claude Sonnetを利用し、データセット・タスクは同一
- 唯一の変数:操作インターフェース(Vision or API)
Visionエージェントの課題と対応
- 初回試行:Visionエージェントは1件のみレビュー承認し終了
- ページネーション未対応:画面外レビューの存在を認識できず
- モデル自体の限界ではなく、UIから得られる情報の限界
- APIエージェントは全レビュー・注文情報を構造化データで取得
- 明示的な14ステップ手順書を与えることでタスク完了
- 14分間・50万トークン消費
- 詳細な手順書作成自体が大きなコスト要因
実験結果の詳細
- APIエージェント
- 8回のAPIコールで一貫してタスク完了
- トークン消費・処理時間ともに低く、ばらつきも小さい
- Visionエージェント
- 試行ごとに処理時間・トークン消費に大きなばらつき
- 17分前後、40万〜75万トークン
- スクリーンショット→推論→クリックの繰り返しで非決定性が高い
- 試行ごとに処理時間・トークン消費に大きなばらつき
- APIエージェントは常に同じ順序で処理、安定した結果
主要メトリクス比較
| メトリクス | Visionエージェント | APIエージェント (Sonnet) | APIエージェント (Haiku) | |--------------------|-------------------|--------------------------|-------------------------| | ステップ数 | 53 ± 13 | 8 ± 0 | 8 ± 0 | | 処理時間 | 1003s ± 254s | 19.7s ± 2.8s | 7.7s ± 0.5s | | 入力トークン数 | 550,976 ± 178,849 | 12,151 ± 279 | 9,478 ± 809 | | 出力トークン数 | 37,962 ± 10,850 | 934 ± 41 | 819 ± 52 |
- VisionエージェントはAPIエージェントに比べて10倍以上のコスト
構造的なコスト差の理由
- Visionエージェント
- 画面レンダリング→画像推論→操作の繰り返し
- 全中間状態を逐次画像で認識する必要
- 1レンダリング=数千トークン消費
- APIエージェント
- 構造化レスポンスを直接取得
- 必要なデータを即座に取得・処理可能
- モデルの精度向上は1ステップあたりのコスト低減には寄与
- ステップ数自体はインターフェース仕様で決定
APIエンジニアリングコストの再評価
- Reflex 0.9のプラグイン利用で
- アプリケーションのイベントハンドラから自動でHTTPエンドポイント生成
- API化の工数がほぼゼロに
- VisionエージェントはAPI化できない外部SaaSやレガシーシステムで有効
- 自社開発ツールではAPI化のコスト低下により、APIエージェントの方が圧倒的に有利
注意点・補足
- Visionエージェントの結果はbrowser-use 0.12固有の挙動
- APIエージェントは自動生成RESTエンドポイントを利用(30行程度)
- データセットは小規模(顧客900件、注文600件、レビュー324件)
- VisionエージェントはLangChain経由、APIエージェントはAnthropic SDK直利用
- 全トークンカウントはキャッシュなしの生値
再現方法
- リポジトリに
- シードデータ生成スクリプト
- パッチ済みreact-adminデモ
- 両エージェントのスクリプトと生ログを同梱
- 容易な再現性確保