正直に言うと、生成AIはあまりうまくいっていない

93日前原文(garymarcus.substack.com)

概要

LLMs（大規模言語モデル）に対する信頼性の問題
記憶への依存が依然として大きい現状
社会的・経済的価値の限定的な貢献
スケーリングによる問題解決の限界
技術への過度な期待と政策判断のリスク

LLMsの信頼性と価値に関する最新ニュース

LLMsは依然として完全な信頼が置けない技術
多くの出力が単なる記憶の再現に過ぎない現状
Geoffrey Hintonの主張とは異なり、記憶依存の問題が継続
社会や経済に対する定量的な価値提供が限定的
Remote Labor Indexの調査では、AIが実際に対応可能な仕事は全体の**2.5%**程度との報告
Washington Postでもこの調査結果が引用
モデルのスケーリングによる性能向上が頭打ちの兆候
スケーリングのみで根本的な課題解決は困難との見方
経済や地政学的政策を未成熟な技術に依存させることのリスク
劇的な進歩への期待だけで政策を決定するのは危険

Hackerたちの意見

この投稿は、記事のスクリーンショットが4枚あるだけで、コメントや議論も全然ないんだよね。

└

あんまり厳しく言わないで、ガリーが批判にこれだけの努力をしたのは久しぶりだし、良い批評は大事だけど、これはちょっと違うかな。

ほんとその通り！5文の記事が大きな主張をしてるのは皮肉だよね。誤解しないでほしいけど、アイデアには賛成だよ。ただ、うちの子たちが4年生の時に書いたエッセイの方が長かったりするし。

一方で、共同創業者が過去に何百万もかけたコードを数週間で一人で書き直してるんだよね。俺自身はデザインや写真でかなりの金額を節約して、しかも結果も良くなってる。これがあまりうまくいってないなら、普通レベルに達するのが待ちきれないよ！

└

> その間に、私の共同創業者は、過去に何百万もかけて支払ったコードを数週間で一人で書き直してるんだ。コードは資産じゃなくて負債だし、誰もレビューしてないコードはさらに厄介。だけど、結局、重要なのは実行力だから、君と共同創業者が生成したコードの山を使ってうまく実行できるなら、短期的にどんな資産や負債を持ってるかは関係ないよ。長期的なことは、どちらにしても予測が難しいしね。

└

笑同じく。最近、mermaidで図をたくさん書いたんだけど、普通なら一週間かかるようなものだし、フロントエンドエンジニアのためにUIのモックも作ったんだけど、これもまた一週間かかるかな…デザイナーとかもいるしね。全部、会議の合間にやってるんだ…うまくいくのを待って、他に何ができるか見てみたいな！

└

直接比較はできないよ。コードを書くのが初めての時が一番難しいのは、要件を途中で把握しなきゃいけないことがあるから。初期のシステムがしばらく動いていると、2回目はやりやすくなるんだ。要件の問題が解決されてるからね。ところで、なんで君の共同創業者が書き直しをしなきゃいけないの？

└

>「一方で、私の共同創業者は、過去に数百万の給料をかけたコードを、数週間で一人で書き直している。なんで？別に悪く言うつもりはないけど、AIはコーディングにおいてかなり素晴らしいと思うし、生産性や質を大幅に向上させることができる。だけど、彼がこれをやっている理由が気になる。」

└

>コードの書き直しここが重要なポイントだね。コードはすでに書かれているから、書き直すこと自体はあまり量的な価値を加えているわけじゃない。最初に何百万も使ってなければ、書き直すコードもなかったはず。

└

このスレッドでは、機能している技術に対して影を落とす人たちがいて、完璧な世界と比較したり、テストなし、E2Eや手動テストなしといった変な仮定をして主張を作り上げたりしている。ホットテイク：ほとんどのソフトウェアエンジニアはクソみたいなコードを生産してる。制約や自分の能力によってね。LLMも同じことをするけど、コストが低くて速く動ける。使い方が分かれば、コードは大丈夫。コードは商品で、未来には多くの人がそれに気づかされるだろう。もしあなたの価値提案が要件をコードに翻訳することなら、ちょっと気の毒だね。LLMの出力品質はオペレーターの能力に依存する。私の経験では、ほとんどのソフトウェアエンジニアはここで良いシステム思考を持っていない。フラクショナルCTOとして、10年間共同創業者/CTOをやってきた中で、多くの人やコードベースを見てきたけど、大半はただ悪いものだった。現実のコードベースや開発者の出力を比較する必要がある。人々が望んでいるものではなくてね。現実はほとんどがクソで、ほとんどのソフトウェアエンジニアは仕事が下手だ。

└

LLMがプログラミングの生産性を向上させるのは、彼らが訓練されたプログラムの著作権制限を回避するからだよ。もし、既存の多くのプロプライエタリやオープンソースのプログラムを自由に再利用できたら、プログラマーの給料に何百万も使う必要はなかったはず。誰もが制限なしにプログラムを再利用できるのは全然問題ないけど、これらのAIプログラミングツールによって、裕福な人たちは著作権を無視できる一方で、貧しい人たちは以前と同じように制約を受け続ける。プログラムの著作権は、何十年にもわたってプログラミングの努力を大幅に増加させてきた。みんなが似たようなプログラムを何度も書き直して、自分の会社が「IP」を所有するためにね。今、LLMは別のタイムラインで何が起こったかを暴露している。LLMは膨大なプログラムのデータベースを迅速かつ簡単に検索できるという追加の利点があるけど、その利点だけでは、同じデータベースを従来の手段で検索して再利用可能なコードを見つける有能なプログラマーに対して、かなりの生産性向上にはならないだろうね。

└

なんで何百万ドルもかけてコードを書き直す必要があるの？

└

こんにちは、Matt！私も共同創業者の一人で、AIから信じられないほどの価値を得ていて、HN周りの態度に驚いています。あなたたち、私たちの完全なクローンみたいだね :-) 私たちは7月からやっていて、3〜5人がかかっていたことをたった2人でやり遂げました。批判する人たちへ：私はTDDを使っていて、コードのすべての行をレビューしてるから、動物じゃないよ。たった2人だけど、時には軍隊を指揮しているように感じることもある。

└

>「俺自身、デザインや写真で小さな fortune を節約して、より良い結果を出してる。」それは、すでに持ってるデザインや写真のスキルやビジネスが向上してるから？それともAIを使ってゼロから立ち上げたの？ちょっと教えてくれたら嬉しいな。ありがとう！

まだ完璧じゃないからって、みんながこれを完全な失敗だって扱うのはちょっと変だと思う。今の生成AIは、約5〜6年前から存在していて、かなり改善されてるし、これからも進化する可能性が高いんだよね。確かに、まだ準備が整ってないところで使われてることもあるけど、「あまりうまくいってない」って言うのは視野が狭いと思う。実際にはかなりうまくいってるのに、ちょっとした問題を解決する必要があるだけなんだ。新しい技術はしばらくバグがあるもので、最終的には退屈になるんだよ。

└

> 今の生成AIは、約5〜6年前から存在していて、かなり改善されてるし、これからも進化する可能性が高い。2、3ヶ月ごとに新しいモデルが出てきて、前のものを圧倒してるって聞くよね。一方で、俺はOpusとSonnetを月20ドルで使ってるけど、基本的なタスクでしょっちゅう失敗してるし、反重力がループにハマってクレジットを消費してる。ここで話してるのは「基本的な例をコピーして、APIを妄想しない」ってことだから、深いシステム設計の話じゃないんだ。2023年のv0と同じように、ウェブフロントエンドを一発で作れるけど、それができるのはそれくらいしか見たことがない。

└

アルトマンみたいな人たちが短期的な期待を非現実的に高く設定してるからだよ。

└

うちの職場では「GenAI」を使って結構クールなワークフローを実装してて、ソフトウェアのユーザーもすごく感謝してるよ。ハンマーがほとんどのものを壊すからダメだって言ってるようなもんだね。

└

> 私たちが知っている生成AIは、約5〜6年前から存在していて、かなり改善されてきたし、今後も改善される可能性が高い。大きな問題は、改善のペースが約4年間は信じられないほどだったのに、今はほぼ停滞しているように見えることだ。ChatGPTは、ここ6ヶ月ほどほとんど改善されていない。コストを驚くほど下げているけど、それは無視できないことだ。しかし、ここで重要なのは、彼らがコストを下げているのは、必要だからではないということだ。Googleは十分な資金があるから。彼らは、少なくとも現在の知られているパラダイムでは、コストが物質的な改善をする価値がないからコストを下げている。だから、パラダイムシフトがない限り、前の年のような大幅な改善は見られないだろう。コストは3年で1/100まで下がる可能性があるけど、本当に。彼らは利益を上げる必要があるから、その分が消費者に渡るかどうかはわからない。

└

>「そして、今後も改善され続ける可能性が高いです。細かいことを言うつもりはないけど、『改善され続ける』っていう結論にはどうやって至ったの？この手のことが実際にどう機能するのか、誰も本当にわからないから、数年前にAIの安全性が大きな問題になったんだよね。」

└

>「生成AIは、私たちが知っているように、約5〜6年前にしか存在していない。実際にはそれよりも少ないかも。ChatGPTの初回リリース日は2022年11月だったから、実質的には3年くらいのことだよ。」

└

あなたが言ってることは、今のクリプト兄弟たちがビットコインについて言ってることと同じだよ。それから17年経った今でもね。ビジネスだけど、最初の動き出しの人たちが思っていたものにはならないよ。

これはかなり手抜きな投稿で、表面的な読者の認知バイアスに訴えてる感じがする。俺は特定のユースケースでAIを商業化してるけど、そこでは非常に価値があるんだよね。人々が誤解してるのは、一般的なユースケース（コパイロット）が一般の人々に展開されて、あまりうまくいってないっていう一般化を重ねてるところ。だけど、それはPMFの話であって、基盤となる技術の失敗じゃないんだ。

└

> これは、表面的な読者の認知バイアスに大きく訴える、かなり低い努力の投稿に感じる。私はこの著者を追っていないけど、彼が出てくるときはいつもこんな感じの文章だね。

└

この議論の両側が技術と市場を混同していると思う。まず第一に、現代の生成AI（機械学習、NLP、コンピュータビジョン、予測アルゴリズムなど）以前にも「AI」の形態は存在していて、特定のユースケースに対して非常に価値がある。そこはあまり変わっていないと思うから、一般的な人口に展開された一般的なユースケースに焦点を当てるのは妥当だと思う。結局、マイクロソフトはコパイロット企業だと思っているから、コパイロットがどうなっているかを話すのは妥当だよ。賛成派の側では、技術の成功を製品の成功と混同している。暗号通貨を見てみて -- 技術は分散化、匿名性、通貨としての使用を支えているけど、市場では中央集権化されていて、KYCの対象になり、取引ではなく投機に使われている。技術の可能性は、世界がそれをどう使うかとは必ずしも一致しない。反対側では、AIの問題のある社会経済を技術の状態と混同している。PMFの失敗と呼ぶのは正しいと思うし、それは記事にする価値のある問題だ。技術の成功と市場での失敗を同時に語るのは、そんなに難しくあるべきじゃない。

一年前は全面的に同意してたし、自分でも懐疑的だった。でも、ジェミニが良くなった（2.5くらいの時？）、本当に目を引くほどに。コードを書くためじゃなくて、毎週使い始めたんだ。もっと計算機のようなツールとしてね。最近、Opus 4.5がリリースされて、今は毎日コードの手助けに使ってる。ちょっとしたプロンプトと手助けで、6〜12時間かかってたタスクを15〜30分に短縮してくれることが多い。まだ完全に任せてPRをやってもらうところまでは行ってないけど、そこに近づいてる感じだよ。

└

アンドレイ・カルパティのポッドキャストエピソードを強くおすすめするよ。彼の主なポイントをざっくり言うと、AIは他の技術と同じように広がっていくってこと。突然、すべてがAIに任せられるようになるわけじゃなくて、毎年少しずつ手作業を自動化していくんだ。ある日、気づいたらAIがどこにでもあって、欠かせない存在になってるって感じ。君が見ていることは、彼の予測と一致しているみたいだね。各モデルの世代がソフトウェアエンジニアの責任を少しずつ引き受けられるようになってきてるけど、エンジニアが必要なくなるわけじゃないよ。 https://www.dwarkesh.com/p/andrej-karpathy

└

> 私は自称懐疑論者だった。これが重要だと思う。健全な懐疑心は常に適切だ。私をイライラさせるのは、完全なシニシズムだ。「AIは決してできないだろう[...]」って言ってるけど、私はここで仕事をしながら、その「不可能」とされていることの2/3をやっている。完璧に？いや、もちろん無理だ！でも、最初から完璧にできるわけじゃないし。懐疑心は良いことだ。全ての技術を不可能だと切り捨てるシニックには時間も忍耐もない。

└

今では、Google検索よりもLLMに質問を投げることが多くなりました。Google検索が悪化したのか、LLMが改善されたのかは分からないけど、日常生活での大きな変化です。特定のユースケースに最適なセンサーICを見つけるのも、以前よりずっと楽になりました。前はデータシートを掘り下げるのに丸一日かかっていたのが、今では数分で必要なものが見つかります。検索が手動でウェブディレクトリをめくるのを置き換えたときと同じくらい革命的に感じます。

ゲイリー・マーカスは、ひどいAI予測でかなり有名だと思う。彼はこの分野の専門家ではないよ。彼の2022年の予測のいくつかを見てみて。 > 2029年には、AIは映画を見て何が起こっているかを正確に教えることはできないだろう（2014年に『ニューヨーカー』で「理解の課題」と呼んだもの）。登場人物は誰？彼らの対立や動機は？など。 > 2029年には、AIは小説を読んでプロットやキャラクター、対立、動機について信頼できる回答をすることはできないだろう。重要なのは、文字通りのテキストを超えることだと、デイビスと私は『Rebooting AI』で説明している。 > 2029年には、AIは任意のキッチンで有能な料理人として働くことはできないだろう（スティーブ・ウォズニアックのコーヒーの基準を拡張する）。 > 2029年には、AIは自然言語の仕様や非専門家とのやり取りから10,000行以上のバグのないコードを信頼性を持って構築することはできないだろう。[既存のライブラリからコードをつなぎ合わせるのはカウントしない。] > 2029年には、AIは自然言語で書かれた数学文献から任意の証明を取り出し、それを記号的検証に適した記号形式に変換することはできないだろう。これらの多くはすでに達成されていて、まだ2026年の初めなんだけど。 [1] https://garymarcus.substack.com/p/dear-elon-musk-here-are-fi...

└

物理的な体が必要なやつ（キッチンで）と、人間でも信頼性を持ってできないやつ（10,000行のバグなしコードを構築する）を除けば、他のは全部できると思うよ。

└

どれがもう達成されたって言ってるの？今のスコアカードを見る限り、彼はまだ技術的には正しいと思うけど、2029年までにいくつかのことが間違っていると証明される可能性があるのには同意するよ。例えば、最近のLLMとエルデシュ問題を解くスレッドで、複数のLLMが関与していて、専門の数学者がそれらの間でどの文脈を移動させるかを決めて、物事を整理するのを手伝っているってコメントを読んだのを覚えてる。あと、非専門のソフトウェアエンジニアが10,000行以上のバグのないコードを作成したって話はまだ聞いたことがないな。Cloud Flareの専門エンジニアたちでさえ、Claudeが指揮を取っているOAuthライブラリをバグなしで作るのに失敗したから、専門家がいてもバグなしで作るのは本当に難しいことなんだよね。

└

> 2029年には、AIは小説を読んでプロットやキャラクター、対立、動機などについて信頼性のある回答ができないだろう。重要なのは、文字通りのテキストを超えることだと、Davisと私は『Rebooting AI』で説明している。AIは実際にこれをできるのか？これは複雑な言語処理の良いベンチマークに見える。なぜなら、完全な小説は大量の文脈を必要とするから（『戦争と平和』や『モンテ・クリスト伯』を考えてみて）。もちろん、映画の方がさらに難しい。なぜなら、特に複雑なマルチモーダル入力が関与するからだ。これを全てのテレビシリーズを理解することにまで広げることもできる。

└

料理を除けば、他の全ては、LLMがこれらのタスクをどれだけ信頼性を持って実行できるかについて議論の余地があるレベルまで達成されている。議論は熱心な支持者と否定派の間で行われている。キーワードは「信頼性」で、あなたのその基準は何かってこと。そして「バグなし」が何を意味するか。専門家のグループでも、完璧な意味で「バグなし」の10,000行のコードを書くのに苦労している。形式的な証明があるコードでも、仕様が現実のニーズと合っていないと「バグ」が出ることがある。ロボティクス以外は、少なくとも2026年には実証可能だよ。

└

あなたの意見では、どれが達成されたと思う？数学文献からの恣意的な証明が一番解決されていると思う。IMO問題の研究やLeanの形式化作業はかなり成功している。次に成功しているのは、小説を読んで質問に答えることだと思う。10,000行のバグなしコードを信頼性を持って構築するのは、おそらく一番成功していない。AIは人間のプログラマーよりもバグを多く生み出す傾向があるし、10,000行で1つ未満のバグを信頼性を持って生み出せるプログラマーにはまだ出会ったことがない。

└

このコメント、いつもガリー・マーカスの投稿の横に現れるよね。

└

>「これらの多くはすでに達成されているし、まだ2026年の初めだ。これら（今では笑える）予測をした人たちは、AIが『信頼性』や『バグなし』でこれをやっていないから、何も達成されていないと言うだろう。予測を守るのは、保険会社を運営するようなもの。常に勝つから。」

└

私の意見では、他のコメントとは逆に、AIはすでに上記のことをすべてできると思います。ただし、キッチンの料理人だけは無理です。今日の早い段階で、特定のシーズンの特定のエピソードまで見ていたショーの要約をお願いしたら、ネタバレなしで素晴らしい仕事をしてくれました。

ガリー・マーカス（たぶん）: 「このLLMはまだアインシュタインより賢くないし、あまりうまくいってない」毎月、ゴールポストがどんどん遠くに押しやられている。LLMがどれだけ数学やコーディングのオリンピックや他のベンチマークで支配する必要があるのか、人々が本当にいくつかの分野でかなり良いと認めるまで。もちろん、ノーベル賞受賞者や博士号を持っているなら、LLMはあなたほど良くないけど、世界の99%の人々にとって、LLMは数学、科学、コーディング、そしておそらくあなたの母国語以外の全ての言語であなたよりも優れているし、もしかしたらそれでもあなたより優れているかもしれない。

実際のこの文章の質が悪いことは置いといて、GenAIがどれだけ正直になるかはわからないと思う。実際の影響をちゃんと測ったり評価したりできてない気がする。毎日使ってるけど、その真の影響を評価するのは難しい。全体的に見て、もっと生産的になったのか、逆に減ったのか、よくわからない。質の高い仕事ができてるのか、低いのかも不明。とにかく、すごくクールだし、使うのはめっちゃ簡単。多分、使いすぎてるかも。例えば、ちょっとしたことに使うと、逆に遅くなったりすることもあるし。生産性や質に関しては、まだよくわからない気がする。でも、確実にクールな使い方はあるよね。例えば、前はできなかったような写真や動画の編集ができたり、誕生日パーティーのロゴを作ったりもできる。世界で一番の曲じゃなくても、自分の好きなメロディを作れるし、歌詞も入れられる。PDFから何かを抽出させたり、巨大な賃貸契約書の中で注意すべき点を教えてもらったりもできる。テストを直したり、作ったりもできるけど、それが本当に時間を節約するかはわからない。でも、そういうのは嫌いだから、楽しくなって、同時に動画を見たりもできる。コーディングの効率も上がるし、JSONSchemaからサンプルのJSONを生成したりもできる。もし望めば、コードを書く代わりに英語のプロンプトでメソッドを書けるし、実際に速くなるかはわからないけど、気分によっては頭の負担が少なくて、楽しい時もあれば、そうでない時もある。そういうのは本当に素晴らしい成果で、確実にこれからも続くと思うし、喜んでお金を払うよ。だから、期待してたことによるかもしれないね。

└

OAIなどの投資家たちは、何を期待してると思う？

俺が知ってるのは、過去10ヶ月で今まで以上に色々作ったってことだけ。自分が今はただ物を作れるって分かった時のメンタルの変化を、懐疑的な人たちにどうやって説明する？前にもできたかもしれないけど、実際にはやらなかった。生活が邪魔するからね。今はハードルが低いから、作ってみればいいじゃん。中にはちゃんと形になるものもあれば、ただの実験もある。それも全部作ることだよ。その変化を数値化するのは無理だね。コミット数で測るような生産性の掛け算じゃないんだ。これはクリエイターのマインドシフトなんだよ。

└

「過去10ヶ月で今まで以上に作った。」訂正。実際にはgenAIが作ったんだ。俺はどっちの側にも関わってないけど、genAIが作れるってことは、君がやってることがかなり一般的な領域だってことを示してるんじゃない？そうなると、君みたいな開発者の需要はどんどん減っていくし、最終的には多くの開発者（君も含めて）が市場から完全に排除されることになるかも。個人的なプロジェクトには素晴らしいけど、仕事としては両刃の剣みたいで、使う開発者も（使わない開発者も）結局は切り捨てられる気がする。ビジネスオーナーが完全にバカじゃなくて、（大幅に減った）開発者やAIコンサルタントの労働力を維持したとしても、君や俺が排除される可能性は十分ある。もし、消えた仕事が同じ数だけ新しい仕事で補われるならまだいいけど（実際は無理だし）、権力者たちが気づいて、人間がやる仕事があまり残ってないって認識して、何らかの基本所得制度を導入することもないだろうね（多分しない）。

ハクソク

正直に言うと、生成AIはあまりうまくいっていない

概要

LLMsの信頼性と価値に関する最新ニュース

Hackerたちの意見