Cursorの最新の「ブラウザ実験」は、証拠なしに成功を示唆した

91日前原文(embedding-shapes.github.io)

概要

Cursorは自律的なコーディングエージェントによる「ブラウザ構築実験」を発表。
100万行超のコード生成を強調したが、実際の動作や再現性は示されていない。
GitHubリポジトリは多数のコンパイルエラーを抱え、完成度に疑問符。
「成功」の印象を与える表現が多いが、具体的な証拠やデモは皆無。
最低限の動作すら実証されておらず、主張と実態に大きな乖離。

Cursorの「ブラウザ構築実験」ブログの内容と問題点

2026年1月14日、Cursorが「Scaling long-running autonomous coding」というブログ記事を公開
数週間にわたり自律型コーディングエージェントを運用し、「人間チームが数ヶ月かかるプロジェクトに挑戦」したと主張
失敗したアプローチや課題、解決策についても言及
最終的に「大規模プロジェクトに単一エージェントなしでスケール可能なシステム」に到達したと説明
システムのテストとして「ゼロからWebブラウザを構築」する課題に着手
- エージェントが1週間近く稼働し、1000ファイル・100万行超のコードを生成したと記載
- ソースコードはGitHubで公開（https://github.com/wilsonzlin/fastrender）

成果の曖昧さと検証不能性

ブログでは「新しいエージェントもコードベースを理解し、進捗を生み出せる」「数百人規模で同時に作業し、競合も最小限」と主張
しかし「実際に動作するか」「自力でブラウザをビルドできるか」には一切触れず
記事内の動画も「スクリーンショットのようなもの」であり、動作デモではない
「ゼロからブラウザを作るのは非常に困難」と強調するのみで、成果の実態は不明

コードベースの現状と問題点

GitHubリポジトリは多数のコンパイルエラー（libのビルド失敗、エラー34件・警告94件）を抱える
GitHub ActionsのCIも継続的に失敗、PRもCI失敗のままマージされている
最新から100コミット遡っても、正常にビルドできるコミットは見当たらない
「cargo build」や「cargo check」すら通らず、エラー・警告が多数表示
現在も「ビルドできない」旨のIssueがオープン（https://github.com/wilsonzlin/fastrender/issues/98）
コード内容も「AI slop（AIが雑に生成した低品質コード）」であり、意図や設計が見られない

ブログ記事の印象操作と再現性の欠如

記事では「今後の展望」について言及するが、動作方法や期待値、実際の成果には一切触れず
再現可能なデモや、動作確認済みコミット・タグ・リリースも提供されていない
「動作するプロトタイプ」の印象を与えるが、根拠となる最低限の証拠が皆無
「動作するとは言っていない」ため、虚偽とは断定できないが、誤解を招く表現多数

最低限の期待値と結論

「ブラウザ実験」として最低限求められるのは「コンパイルが通り、簡単なHTMLを描画できること」
Cursorのブログはこの最低基準すら満たしておらず、現状の公開コードもビルド不可
記事は「自律エージェントによる大規模進捗」を強調するが、実証はゼロ
「Chrome並みの完成度」は不要だが、「動作する」証明すらない
「大規模エージェントでの自律コーディングは楽観的な結果」と結論づけているが、根拠不在

総括

Cursorは「ブラウザを自律エージェントで構築」と主張するが、事実上「大量の未完成コードを生成した」だけ
動作証明・ビルド手順・再現性のある成果物は一切示されていない
記事の主張と実態には大きな乖離があり、検証可能な科学的アプローチが欠如
「成功を示唆するが、証拠は皆無」という実験報告の典型例

Hackerたちの意見

これが実際に成功裏にコンパイルされたことがあるのか、すごく気になるんだよね（じゃなきゃ、スクリーンショットはどうやって取ったの？）。だから、最後の100コミットそれぞれで `cargo check` を実行して、何か動くか見てるところ。結果が出たらここで更新するね。編集：言った通り、最後の100コミット全てで `cargo check` を実行したけど、どれも何らかの形で失敗したみたい。

└

スクリーンショットが偽物だって言われても驚かないよ。俺の経験上、LLMに関する特異な主張があるときは、オッカムの剃刀がそういう方向に導くことが多いから。

└

今はコンパイルできるはずだよ。

ブログはちょっと保守的な言い回しだけど、Twitterではその主張がかなり明白で、ハイプ効果も出てるね。CEOは「CursorでGPT-5.2を使ってブラウザを作った」と言ってるけど、「エージェントをプランナーとワーカーに分けて、メインブランチに何千ものコミットを作るのに数週間かかった。マージコンフリクトも解決した。リポジトリは100万行以上だけど、コードはまだ動かない」って言ってるわけじゃないからね。

└

つまり、誰かがどこかのタイミングでこれを実行できたってことだよね？それがスクリーンショットの出所？コードがエラーだらけなのに、どうやってそれができたのか全然理解できない。

└

それにしても、「その過程でマージコンフリクトを解決する」って言っても、常に機能する2つの簡単なマージ戦略（「ours」と「theirs」）があるから、意味ないよね。

└

リンク[0]はブラウザが動いてたことを示唆してるね。それが「保守的」ってどういうことか、教えてくれない？

元の投稿はただの見出し釣りだったと思う。AIに関するニュースサイクルがすごく早いから、「何千ものAIエージェントが協力してウェブブラウザを作る」って言われたら、みんなそのまま受け取っちゃうんだよね。

└

少なくとも、これがどこかのHNのコメントで「今やAIエージェントがゼロからブラウザを作れる」って言われた時にリンクできるものができたよ。

└

実際には機能しないプロジェクトに関するニュースが早回しで流れてるのは残念だね。「フェイクニュース」って言葉が政治的に使われるようになったのも、本当に残念。これ、まさにこの状況を表してるのに。

CEOは言ったんだよね。「3M行以上のコードが何千ものファイルにわたっている。レンダリングエンジンはRustでゼロから作られていて、HTMLパース、CSSカスケード、レイアウト、テキスト整形、ペイント、カスタムJS VMが含まれている。」って。「ゼロから」って聞くとすごく印象的だけど、「カスタムJS VM」もそうだね。で、依存関係を見てみると、- html5ever - cssparser - rquickjs これってただのservoだよね。Mozillaが最初に作ったRustベースのブラウザで、今はIgaliaがメンテしてるけど、余計なステップがあるだけ。だから、この「ゼロから」のブラウザは結局、人間が書いたコードを呼び出してるだけなんだよね。それなのに、コンパイルすらできないって、ただのゴミだよ。

└

正直、Rustでブラウザって見た瞬間、部分的にservoのソースコードを再現したか、ライブラリを利用したんだろうなって思ったよ。

└

あと、セレクターとタフィーもね。古い依存関係のバージョンを使ってるのが変だよ（例えば、wgpu 0.17は2023年6月のもので、最新は2025年12月にリリースされた28）。

└

そうだね、- ServoのHTMLパーサー - ServoのCSSパーサー - JS用のQuickJS - CSSセレクターマッチング用のセレクター - SVGレンダリング用のresvg - レンダリング用のegui、wgpu、tiny-skia - WebSocketサポート用のtungstenite これら全部で300万行だよ！

└

確かに、「ゼロから」というのが「Chromiumをダウンロードしてビルドする」って意味でも、それを達成するのは簡単じゃないよね。現代のブラウザがどれだけ複雑かを考えると、すぐにテセウスの船の哲学に入っちゃう。エージェントたちがどのコードをコピーしたかはあんまり気にしないけど、もっと大きな問題はそのコードが動かないことだよ。だから、実際には「Chromiumをダウンロードしてビルドする」という基準を満たせてないし、コードについて話す意味もないね。

└

> ブラウザの一部として開発中のカスタムJS VMを使ったJSエンジンで、これは私の個人的なJSパーサープロジェクトをベースにしてるんだ。

└

> 人間が書いたコードに呼びかけてるだけだよね。まぁ、いつもみたいに完全にパクってるわけじゃないから、まだマシかな。

└

Servoのレイアウトコードを使ってるの？それともCursorが独自にレイアウトを書いたのかな？そこが一番難しい部分だよね。

元のCursorの投稿を見ると、彼らは現在似たような実験をしてるって言ってるよ。例えば、このExcelクローンね：https://github.com/wilson-anysphere/formula アクションの概要はすごいよ：160,469回のワークフローが実行されて、そのうち247回が成功した。ワークフローが失敗してる理由は、支出制限を超えちゃったから。もちろん、エージェントたちは全く気にしてないけど。

最新のコミットは今、ビルドして実行できるようになった（少なくとも俺のMacでは）。悲しいことに壊れてて、コードは…よくわからない…何かだよ。300万行の何か。Cursorのプロモで見たAppleのページをレンダリングできなかった。もしかしたら、別のビルドを使ってるのかも。

└

そうだね、最新のコミットで `cargo check` がちゃんと動くようになったみたい。彼らが声明を出したら、アップデートのブログ記事を書こうと思ってる。なんか怪しいことが `git log` で起きてる気がするんだよね。最終的にコンパイルできたのは「自律的」に動いたエージェントじゃなさそう。ユーザー名やメールアドレスがコロコロ変わってるし、EC2インスタンス内でのコミットも混ざってるみたいだよ。

今週の実験がServo（既存のRustブラウザ）用の機能しないラッパーしか生み出さなかったって指摘してるコメントは、トップに載せるべきだよ：https://news.ycombinator.com/item?id=46649046

└

誰か人気のオープンソースプロジェクトをIAで書き直そうとした人いる？現代のLLMはライセンスの洗浄や依存関係の盗作にかなり効果的だと思うし、面白い新しいベンチマークになるかもね。

└

ネガティブな結果は素晴らしいよ。意図的に発表するなら立派だし、偶然に明らかになると面白い。Cursorに乾杯！

このマーケティング手法が効果的だとは思えないな。自分たちの足を撃ってるだけじゃない？実際にCursorを使った経験から言うと、デザインは素晴らしいし、UXもいい。フロントエンドの作業はそこそこうまくいくんだけど、深く掘り下げると深刻なバグが出やすくなる。Claudeの新しいモデルが多少助けにはなったけど、結果はGoogleのAntigravityには及ばない（あっちもUXが悪くてバグだらけだけど）。さらに悪いことに、話題のClaudeモデルでも、$20のサブスクリプション制限を数日で簡単に超えちゃう。彼らはモデルが10倍良くなって10倍安くなることに賭けてるのかもしれないけど、そんなことがすぐに起こるとは思えないな。

好きか嫌いかは別にして、これは資金調達の戦略だよね。彼らは何度もこれをやってきた（例えば、社内モデルがどれだけコードを書いてるかについての曖昧な投稿とか、オンラインRLやコード行数についてのこと）し、以前はもっと具体的だった。モデルをリリースしたのに、正確なベンチマークも教えてくれないし、同じモデルのベースも教えてくれない。これが何も裏付けがないって意味じゃないけど、彼らの発見についてはもっとオープンにしてほしいな。批判じゃなくて、ただの観察ね。

└

残念ながら、主要なLLM企業は真実があまり重要じゃないことに気づいちゃったみたい。GPT-5のローンチでも、明らかに雰囲気でコーディングされた＋曖昧な指標が見られたし。リターンが減少し始めてて、企業はその逆の幻想を求めて必死になってる。

└

嫌だな。自分たちが得るべき市場価値以上を得るために嘘をついてる。目的が手段を正当化することはないよ。これは批判だね。

コンパイルできるようにするのは、生産性をかなり下げることになるよ。PRの数は増えるけどね。

ハクソク