長時間稼働する自律コーディングのスケーリング
92日前原文(cursor.com)
概要
- 数百のエージェントを同時に動作させて大規模プロジェクトに挑戦した経験談
- 動的な協調から役割分担型のパイプライン構造への進化
- 数百万行のコード生成と大規模な成果事例
- モデル選択やプロンプト設計の重要性
- 今後の課題と展望
エージェントによる自律的コーディングの最前線
- 複数のエージェントを並列稼働させ、人間チームが数ヶ月かかるプロジェクトに挑戦する実験
- 単一エージェントは小規模タスクに強いが、大規模プロジェクトでは非効率
- 動的な協調(エージェント同士が進行状況を見てタスクを選ぶ)を最初に採用
- 共有ファイルとロック機構で競合防止を試みるも、ボトルネックやデッドロック、失敗が頻発
- 楽観的同時実行制御(状態変更時のみ書き込み失敗)も導入したが、本質的な問題は解決できず
- 階層構造のない協調では、エージェントがリスク回避的になり、難題を避けて進捗が停滞
役割分担によるパイプライン構造への転換
- プランナーとワーカーに役割分担するパイプライン構造に移行
- プランナー:コードベースを探索しタスクを生成、必要に応じてサブプランナーを生成
- ワーカー:割り当てられたタスクを遂行し、他のワーカーとの調整は不要
- ジャッジエージェントが各サイクルの終了判定を担当
- この構造で協調問題が大幅に解消し、数百のエージェントによる大規模プロジェクトも実現可能に
実験事例と成果
- Webブラウザのゼロからの自作に挑戦
- 1週間で100万行以上・1000ファイル超のコード生成
- 新規エージェントもコードベースを理解し、継続的に貢献可能
- 数百ワーカーが同一ブランチへ同時プッシュ、競合は最小限
- SolidからReactへの大規模移行(Cursorコードベース)
- 3週間で26.6万追加/19.3万削除の大規模編集
- マージ可能な品質に到達
- 新プロダクトのパフォーマンス改善
- Rustによるビデオレンダリングの高速化(25倍向上)
- ズーム・パンのスムーズな動作追加、コードは本番投入予定
- その他の実験例
- Java LSP: 7,400コミット、55万行
- Windows 7エミュレータ: 14,600コミット、120万行
- Excel: 12,000コミット、160万行
学びと知見
- モデル選択が長期自律作業の効率性に大きく影響
- GPT-5.2は指示遵守、集中維持、精密実装に優れる
- Opus 4.5は早期停止・省略傾向あり
- 役割ごとに最適なモデルを選択することで効率向上
- 複雑さの排除がシステム改善に寄与
- 品質管理・統合担当(インテグレータ)を廃止し、ワーカーの自律解決に任せた方が効率的
- 分散システムや組織論のモデルは一部適用困難、適度な構造が重要
- プロンプト設計が協調・集中・異常回避に最重要
- システムやモデルよりも、プロンプトの工夫が成果を左右
今後の課題と展望
- マルチエージェント協調は依然として難題
- プランナーの自動再起動や、タスク完了時の動的計画更新が必要
- エージェントの長時間稼働やドリフトへの対策として定期的なリフレッシュが必要
- 大規模自律コーディングのスケーラビリティには希望
- 数百のエージェントが数週間に渡り協調し、実際に大規模プロジェクトを推進可能
- これらの技術は今後Cursorのエージェント機能に還元予定
- AI支援ソフトウェア開発の最先端課題に興味がある人材を募集中(hiring@cursor.com)