ハクソク

世界を動かす技術を、日本語で。

Cursorの最新の「ブラウザ実験」は、証拠なしに成功を示唆した

概要

Cursorは自律的なコーディングエージェントによる「ブラウザ構築実験」を発表。
100万行超のコード生成を強調したが、実際の動作や再現性は示されていない。
GitHubリポジトリは多数のコンパイルエラーを抱え、完成度に疑問符。
「成功」の印象を与える表現が多いが、具体的な証拠やデモは皆無。
最低限の動作すら実証されておらず、主張と実態に大きな乖離。

Cursorの「ブラウザ構築実験」ブログの内容と問題点

  • 2026年1月14日、Cursorが「Scaling long-running autonomous coding」というブログ記事を公開
  • 数週間にわたり自律型コーディングエージェントを運用し、「人間チームが数ヶ月かかるプロジェクトに挑戦」したと主張
  • 失敗したアプローチや課題、解決策についても言及
  • 最終的に「大規模プロジェクトに単一エージェントなしでスケール可能なシステム」に到達したと説明
  • システムのテストとして「ゼロからWebブラウザを構築」する課題に着手
    • エージェントが1週間近く稼働し、1000ファイル・100万行超のコードを生成したと記載
    • ソースコードはGitHubで公開(https://github.com/wilsonzlin/fastrender)

成果の曖昧さと検証不能性

  • ブログでは「新しいエージェントもコードベースを理解し、進捗を生み出せる」「数百人規模で同時に作業し、競合も最小限」と主張
  • しかし「実際に動作するか」「自力でブラウザをビルドできるか」には一切触れず
  • 記事内の動画も「スクリーンショットのようなもの」であり、動作デモではない
  • 「ゼロからブラウザを作るのは非常に困難」と強調するのみで、成果の実態は不明

コードベースの現状と問題点

  • GitHubリポジトリは多数のコンパイルエラー(libのビルド失敗、エラー34件・警告94件)を抱える
  • GitHub ActionsのCIも継続的に失敗、PRもCI失敗のままマージされている
  • 最新から100コミット遡っても、正常にビルドできるコミットは見当たらない
  • 「cargo build」や「cargo check」すら通らず、エラー・警告が多数表示
  • 現在も「ビルドできない」旨のIssueがオープン(https://github.com/wilsonzlin/fastrender/issues/98)
  • コード内容も「AI slop(AIが雑に生成した低品質コード)」であり、意図や設計が見られない

ブログ記事の印象操作と再現性の欠如

  • 記事では「今後の展望」について言及するが、動作方法や期待値、実際の成果には一切触れず
  • 再現可能なデモや、動作確認済みコミット・タグ・リリースも提供されていない
  • 「動作するプロトタイプ」の印象を与えるが、根拠となる最低限の証拠が皆無
  • 「動作するとは言っていない」ため、虚偽とは断定できないが、誤解を招く表現多数

最低限の期待値と結論

  • 「ブラウザ実験」として最低限求められるのは「コンパイルが通り、簡単なHTMLを描画できること」
  • Cursorのブログはこの最低基準すら満たしておらず、現状の公開コードもビルド不可
  • 記事は「自律エージェントによる大規模進捗」を強調するが、実証はゼロ
  • 「Chrome並みの完成度」は不要だが、「動作する」証明すらない
  • 「大規模エージェントでの自律コーディングは楽観的な結果」と結論づけているが、根拠不在

総括

  • Cursorは「ブラウザを自律エージェントで構築」と主張するが、事実上「大量の未完成コードを生成した」だけ
  • 動作証明・ビルド手順・再現性のある成果物は一切示されていない
  • 記事の主張と実態には大きな乖離があり、検証可能な科学的アプローチが欠如
  • 「成功を示唆するが、証拠は皆無」という実験報告の典型例

Hackerたちの意見

これが実際に成功裏にコンパイルされたことがあるのか、すごく気になるんだよね(じゃなきゃ、スクリーンショットはどうやって取ったの?)。だから、最後の100コミットそれぞれで `cargo check` を実行して、何か動くか見てるところ。結果が出たらここで更新するね。編集:言った通り、最後の100コミット全てで `cargo check` を実行したけど、どれも何らかの形で失敗したみたい。
スクリーンショットが偽物だって言われても驚かないよ。俺の経験上、LLMに関する特異な主張があるときは、オッカムの剃刀がそういう方向に導くことが多いから。
今はコンパイルできるはずだよ。
ブログはちょっと保守的な言い回しだけど、Twitterではその主張がかなり明白で、ハイプ効果も出てるね。CEOは「CursorでGPT-5.2を使ってブラウザを作った」と言ってるけど、「エージェントをプランナーとワーカーに分けて、メインブランチに何千ものコミットを作るのに数週間かかった。マージコンフリクトも解決した。リポジトリは100万行以上だけど、コードはまだ動かない」って言ってるわけじゃないからね。
つまり、誰かがどこかのタイミングでこれを実行できたってことだよね?それがスクリーンショットの出所?コードがエラーだらけなのに、どうやってそれができたのか全然理解できない。
それにしても、「その過程でマージコンフリクトを解決する」って言っても、常に機能する2つの簡単なマージ戦略(「ours」と「theirs」)があるから、意味ないよね。
リンク[0]はブラウザが動いてたことを示唆してるね。それが「保守的」ってどういうことか、教えてくれない?
元の投稿はただの見出し釣りだったと思う。AIに関するニュースサイクルがすごく早いから、「何千ものAIエージェントが協力してウェブブラウザを作る」って言われたら、みんなそのまま受け取っちゃうんだよね。
少なくとも、これがどこかのHNのコメントで「今やAIエージェントがゼロからブラウザを作れる」って言われた時にリンクできるものができたよ。
実際には機能しないプロジェクトに関するニュースが早回しで流れてるのは残念だね。「フェイクニュース」って言葉が政治的に使われるようになったのも、本当に残念。これ、まさにこの状況を表してるのに。
CEOは言ったんだよね。「3M行以上のコードが何千ものファイルにわたっている。レンダリングエンジンはRustでゼロから作られていて、HTMLパース、CSSカスケード、レイアウト、テキスト整形、ペイント、カスタムJS VMが含まれている。」って。「ゼロから」って聞くとすごく印象的だけど、「カスタムJS VM」もそうだね。で、依存関係を見てみると、- html5ever - cssparser - rquickjs これってただのservoだよね。Mozillaが最初に作ったRustベースのブラウザで、今はIgaliaがメンテしてるけど、余計なステップがあるだけ。だから、この「ゼロから」のブラウザは結局、人間が書いたコードを呼び出してるだけなんだよね。それなのに、コンパイルすらできないって、ただのゴミだよ。
正直、Rustでブラウザって見た瞬間、部分的にservoのソースコードを再現したか、ライブラリを利用したんだろうなって思ったよ。
あと、セレクターとタフィーもね。古い依存関係のバージョンを使ってるのが変だよ(例えば、wgpu 0.17は2023年6月のもので、最新は2025年12月にリリースされた28)。
そうだね、- ServoのHTMLパーサー - ServoのCSSパーサー - JS用のQuickJS - CSSセレクターマッチング用のセレクター - SVGレンダリング用のresvg - レンダリング用のegui、wgpu、tiny-skia - WebSocketサポート用のtungstenite これら全部で300万行だよ!
確かに、「ゼロから」というのが「Chromiumをダウンロードしてビルドする」って意味でも、それを達成するのは簡単じゃないよね。現代のブラウザがどれだけ複雑かを考えると、すぐにテセウスの船の哲学に入っちゃう。エージェントたちがどのコードをコピーしたかはあんまり気にしないけど、もっと大きな問題はそのコードが動かないことだよ。だから、実際には「Chromiumをダウンロードしてビルドする」という基準を満たせてないし、コードについて話す意味もないね。
> ブラウザの一部として開発中のカスタムJS VMを使ったJSエンジンで、これは私の個人的なJSパーサープロジェクトをベースにしてるんだ。
> 人間が書いたコードに呼びかけてるだけだよね。 まぁ、いつもみたいに完全にパクってるわけじゃないから、まだマシかな。
Servoのレイアウトコードを使ってるの?それともCursorが独自にレイアウトを書いたのかな?そこが一番難しい部分だよね。
元のCursorの投稿を見ると、彼らは現在似たような実験をしてるって言ってるよ。例えば、このExcelクローンね:https://github.com/wilson-anysphere/formula アクションの概要はすごいよ:160,469回のワークフローが実行されて、そのうち247回が成功した。ワークフローが失敗してる理由は、支出制限を超えちゃったから。もちろん、エージェントたちは全く気にしてないけど。
最新のコミットは今、ビルドして実行できるようになった(少なくとも俺のMacでは)。悲しいことに壊れてて、コードは…よくわからない…何かだよ。300万行の何か。Cursorのプロモで見たAppleのページをレンダリングできなかった。もしかしたら、別のビルドを使ってるのかも。
そうだね、最新のコミットで `cargo check` がちゃんと動くようになったみたい。彼らが声明を出したら、アップデートのブログ記事を書こうと思ってる。なんか怪しいことが `git log` で起きてる気がするんだよね。最終的にコンパイルできたのは「自律的」に動いたエージェントじゃなさそう。ユーザー名やメールアドレスがコロコロ変わってるし、EC2インスタンス内でのコミットも混ざってるみたいだよ。
今週の実験がServo(既存のRustブラウザ)用の機能しないラッパーしか生み出さなかったって指摘してるコメントは、トップに載せるべきだよ:https://news.ycombinator.com/item?id=46649046
誰か人気のオープンソースプロジェクトをIAで書き直そうとした人いる?現代のLLMはライセンスの洗浄や依存関係の盗作にかなり効果的だと思うし、面白い新しいベンチマークになるかもね。
ネガティブな結果は素晴らしいよ。意図的に発表するなら立派だし、偶然に明らかになると面白い。Cursorに乾杯!
このマーケティング手法が効果的だとは思えないな。自分たちの足を撃ってるだけじゃない?実際にCursorを使った経験から言うと、デザインは素晴らしいし、UXもいい。フロントエンドの作業はそこそこうまくいくんだけど、深く掘り下げると深刻なバグが出やすくなる。Claudeの新しいモデルが多少助けにはなったけど、結果はGoogleのAntigravityには及ばない(あっちもUXが悪くてバグだらけだけど)。さらに悪いことに、話題のClaudeモデルでも、$20のサブスクリプション制限を数日で簡単に超えちゃう。彼らはモデルが10倍良くなって10倍安くなることに賭けてるのかもしれないけど、そんなことがすぐに起こるとは思えないな。
好きか嫌いかは別にして、これは資金調達の戦略だよね。彼らは何度もこれをやってきた(例えば、社内モデルがどれだけコードを書いてるかについての曖昧な投稿とか、オンラインRLやコード行数についてのこと)し、以前はもっと具体的だった。モデルをリリースしたのに、正確なベンチマークも教えてくれないし、同じモデルのベースも教えてくれない。これが何も裏付けがないって意味じゃないけど、彼らの発見についてはもっとオープンにしてほしいな。批判じゃなくて、ただの観察ね。
残念ながら、主要なLLM企業は真実があまり重要じゃないことに気づいちゃったみたい。GPT-5のローンチでも、明らかに雰囲気でコーディングされた+曖昧な指標が見られたし。リターンが減少し始めてて、企業はその逆の幻想を求めて必死になってる。
嫌だな。自分たちが得るべき市場価値以上を得るために嘘をついてる。目的が手段を正当化することはないよ。これは批判だね。
コンパイルできるようにするのは、生産性をかなり下げることになるよ。PRの数は増えるけどね。