ハクソク

世界を動かす技術を、日本語で。

知識労働のシミュラクル

概要

  • 表面的な品質で成果物の良し悪しを判断する現実
  • **LLM(大規模言語モデル)**がこの評価手法を崩壊させた問題
  • 知識労働における代理指標の限界と危険性
  • 実際の価値ではなく、見た目重視の最適化が進行
  • Goodhartの法則による弊害の自動化

表面的な品質で判断する知識労働の現実

  • 新製品の市場分析レポート受領時、日付や誤字、グラフのミスなど表面的な問題の発見
  • 内容の真偽や有用性よりも、表層の完成度で即座にレポートを却下
  • 表面的なミスはリサーチ自体の質の低さを示す代理指標
  • 本来重視すべきは現実の反映・意思決定への有効性だが、検証コストが高い
  • 表面品質は安価かつ十分な相関を持つため、多くの知識労働で代理指標として利用

代理指標とインセンティブの崩壊

  • 知識労働全体が「表面的な品質」で評価される構造
  • 判断コスト削減のため、誰もが代理指標に依存
  • 代理指標がインセンティブのズレを抑制してきた歴史
  • LLMの登場で代理指標が機能不全に
    • LLMは**「高品質風」な成果物**を容易に生成
    • ChatGPT等に依頼すれば、一流コンサル風レポートが即完成
    • コードも一見高品質に見えるものを大量生成可能

シミュラクラ(模造品)化する知識労働

  • AIによるコードレビューも「儀式」化し、根本的な質は担保されない
  • 成果物の見た目だけが評価される「知識労働のシミュラクラ化」
  • 測定される指標に最適化する合理的な労働者の行動
  • LLM自身も「真実」や「有用性」ではなく、見た目の良さで評価
    • RLHFや出現確率に基づく訓練
    • 「高品質に見える」成果物を生み出すことに最適化

Goodhartの法則と自動化された弊害

  • 巨額の投資で「仕事の模造品」を量産する現状
  • 企業はトークン消費量競争に突き進む
  • LLMアウトプット増加で、中身を深く確認する時間が減少
  • 結果として**表面だけ見て「LGTM」**で承認されるプロセス
  • Goodhartの法則(指標が目標になると本来の目的が失われる)の自動化

まとめ:知識労働の未来への警鐘

  • 表面的な評価基準の限界と、LLMによるその崩壊
  • 実質的な価値ではなく、見た目の最適化が進行
  • 知識労働の質の担保がかつてなく困難になっている現状
  • Goodhartの法則の罠に陥るリスクの高まり

Hackerたちの意見

みんなのアウトプットは、誰かのインプットになってるよね。LLMを使って量を生み出すと、他の人はそのLLMを使って解析して、自分のインプットからアウトプットを生成する。最後の消費者が文句を言った時、どこが間違ってたのか誰もわからなくなるんだよね。
まあ、最後の消費者が間違った使い方してるのは当然だよね。なんで?最後の消費者は目の前にいるけど、他の人は7つのプロキシの向こう側にいるから。
記事では、人間の知識労働の質は、誤字やエラーといったプロキシの指標で判断しやすいって主張してるけど、AIにそういう「サイン」がないのが問題だって。どちらの主張にも同意できるかはわからないな…事実に基づいていて、フォーマットも整ってるのに、概念的にはめちゃくちゃ低品質な人間の知識労働をたくさん見てきたし。AIのサインは今や人々にとって認識しやすいし、実際、これらの言い回しは単に認識できるだけじゃなくて、間違いなくわかるものだよ。← これ、わかる?企業クライアントと10年働いてきたけど、LLM以前の時代を高品質な知識労働の黄金時代とは思ってない。あの頃も「知識労働の模倣」みたいなゴミがたくさんあったよ。
そうだね。ここでの主な警告は、リスクが増えるってことだと思う。ちょっとした不具合があちこちで起きて、最終的に何かが壊れるまで。
LLM以前の時代が「質の黄金時代」だったわけじゃないし、むしろその逆だよ。LLMが急いで作られたクソみたいな仕事のサインをまた一つ消し去ったってこと。
LLMが正しい時間枠で、誤字がなくて、見た目が良いレポートを作るっていう主張には、私も同意できるかどうかわからないな。明らかにサインがある人間やLLMのレポートは無視する覚悟もあるし。LLMでも人でも、雑な仕事やエラーだらけのものを作ることができる。良いレポートと悪いレポートの区別が難しくなってきてるかもしれないけど、それが評価者に負担をシフトさせるのを助けるんだよね。特にコストに基づいてLLMの使用が分かれてくると、そうなる。高品質なフロンティアモデルは高いコストでより良い仕事を生み出すかもしれないけど、下からの経済的圧力もあるし。人間のコンサルタントや従業員と同じように、高品質な仕事にはもっとお金がかかるよ。何を主張したいのか、ちょっとわからなくなってきたけど、LLMが低品質なレポートを作らないなんて考えは、私にはちょっと馬鹿げてると思えた。
自動化の目標は、一貫して完璧な能力を自動化することであって、人間の失敗を自動化することじゃないよ。人間と同じくらいの精度で、しかも頻繁に間違える計算機なんて使わないでしょ。
私にとっての問題は、ミスに対する人間の説明が欠けていることなんだ。人間の場合、質の低さには原因がある。知識の不足だったり、時間的なプレッシャーだったり、自己中心的な目標だったり。最も重要なのは、そういったエラーの原因が一貫していること。あるインターンが注意深いけど無知だったり、赤ちゃんがいる先輩が知識の宝庫だけど、睡眠不足で明らかなことを見逃したりするのは信頼できる。AIの場合は、誰にも予測できないから厄介なんだ。完璧にコードを実装しても、同じ実行で初歩的なミスをすることがあるからね。だから、極端に有能な機械に対して、完全に無能だと仮定してレビューするという直感に反する作業をしなきゃいけないんだよ。
それは、ポジティブなフィルターじゃなくて、ネガティブなフィルターなんだ。つまり、誤字や基本的な事実誤認があると簡単に仕事を拒否できるけど、それがないからといって質が良いとは限らないってこと。通常、こういったチェックは最初の段階であって、唯一の基準じゃない。これがあると、最初のチェックを通過した後に実際の問題を特定しやすくなるから価値がある。同じ理由で、コードの質やリントスタイルを整えてから、実際に書かれている論理を考えるんだ。
> 「どちらの主張にも同意するか分からない… 人間が生成した知識の中には、事実として正確で、フォーマットも整っているけど、概念的には非常に質が低いものをたくさん見てきた。悪いアイデアに高いレベルの磨きをかけるのは、基本的に詐欺師の手口だよ。ビジネスの世界では、質の高い仕事に関連するすべての磨きや飾りを使って、悪いアイデアや製品を着飾って成功を収める人たちや企業がいるんだ。」
> AIのサインは、今や人々にとって認識しやすい。実際、こういった言い回しは単に認識できるだけでなく、明確に区別できる。<-- 俺がやったこと、分かる?これらの非常に明白な構造を見つけても、99%のAI生成テキストを見逃すかもしれない。なぜなら、それには手がかりがないから。でも、99%が生成されたことを知らないし、あなたが示したパターンの100%を見つけるから、AI生成のテキストがあなたの目を通過することはないと思ってしまう。
> どちらの主張にも同意するか分からない… そうだね、これは重要じゃないと思う。「知識作業」の多くは、常に他の何かの代理だった。誤字やエラーの高品質は、アイロンがけされた白いシャツにネクタイを付けるのと同じように、尊敬のシグナルなんだ。「誰も深く読むことを期待していないテキストの壁」。基本的には、犠牲と従属の象徴的なデモンストレーション(または何か)。LLMはこのシグナルのモードを取り除く。もしコンテンツの質が以前に検討されていなかったら、それはおそらく特に重要ではなかったんだろう。
結局、何かを理解するっていうのは、そのことをやることだよね。そして、理解できない(それは全然問題ないけど!)っていうのは、他の人を信頼すること、プロキシの指標があろうとなかろうと。未来の仕事は不安定な場所にあるのは同意するよ:やることが少なくなって、信頼することが増えるのは、限界があるからね。「模倣」という言葉はいいね、これをボキャブラリーに加えなきゃ。
シミュラクルの概念はボードリヤールから来てるんだ。彼のエッセイ「シミュレーションとシミュラクラ」は、現代経済の奇妙さを理解するためにすごくおすすめだよ。
これは学術界で既に明らかになっている問題だけど、記事が言っている理由とはちょっと違うんだよね。「質の悪い作品のサイン」が消えていくわけじゃなくて、AIで作られた作品を慎重にチェックするのが、もう人間だけではコストがかかりすぎるってことなんだ。経済学のジャーナルなんかでは、付録が何百ページにもなるから、読む時間には限りがあるし。他の分野のジャーナルも、新しい投稿の数だけじゃなくて、各作品をチェックするための労力にも同じようなプレッシャーを感じているのか、ぜひ聞いてみたいな。
確かに、多くの学問分野は、修士号以上のレベルになると、判断するためにはかなりの能力が必要だし、それ以下の人には正しいかどうかの区別がつかないことが多いね。
業界にいる私たちには、これはかなり明白だと思う。残念ながら、テーブルの上にはお金がたくさんあって、大手のプレイヤーは好きなものを押し付けてくるんだよね。
AIを使ってると、理解を模倣してるだけになってるよね。何かを理解したかのような表面を再現してるけど、本当に理解するための時間と労力を自分たちから奪ってるんだ。
AIは、あなたが理解していなくても自分で物事をやることができるよ。でも、何かをしっかり理解しようとしているなら、AI以上に助けになるツールはないよ。
俺の同僚にずっと言ってるんだけど、彼がAIを使う理由って「クラウド・スノーフレーク・コルテックスに、うちの統合コードやドキュメント、JIRAチケットを渡して、すべてをもっと良くするんだ。何でも聞けて答えが返ってくる」っていうだけなんだよね。彼は全然現実を見てなくて、そもそもストーリーがあんまりないのに。SFに影響されて、どれだけ素晴らしいかを妄想してる。自分のトニー・スタークのジャーヴィスを手に入れることに夢中で、これが彼を加速させると思ってるみたい。正直、彼にとっては大きな気晴らしになってるし、LLMを使ったビッグウィキズのことに執着しても、彼が思ってたほどの成果は出てない。何度か、技術がどれだけ不完全かを痛感してるのを見てきた。みんなの壮大なビジョンと、エージェント的なワークフローの話を聞いて、俺はほとんど引っ込んで、定期的に成果を出してる数少ない一人になっちゃった。AIを使って納品をかなり早めてるけど、大きな冒険に時間を無駄にするつもりはない。皮肉なことに、多くの人がチャットボットを導入しようとした企業に反発してたのに、自分たちは6兆の.mdファイルを集めてスキルファイルを追加して、自分たちのチャットボットを作るためにほとんどのクレジットやトークンを使ってる。俺の本当の気づきはこれだ:知識を広げるためにショートカットを取ろうとすると、実際の組織的な知識が失われるってこと。例えば「クラウド、企業がXをデザインしてYを解決する方法の例を教えて」とか「ゴーランは初めてだけど、コンパイル言語の利点は何?」みたいな質問じゃなくて、「/somePersonalBigWikiProjectInvokedBySkill.md クラウド、現在のツールとインフラをレビューして、デプロイ速度を5倍にするにはどうすればいいか、ウェブで調査して提案をまとめて、5年のコストベネフィット分析を含めて…」っていうような質問。周りを見ると、みんな自分を弱体化させてる気がする。その後者の質問?みんなクラウドに提案を送ってばかり。俺の目は完全に glazed over だよ。自分でちょっと調べるのがそんなに難しいの?もう、建築家やシニアエンジニアを呼んで、彼が技術やビジョンの広がりにどうフィットするかを聞く能力を手放してる。みんなで少し発見を共有して、結果に向けて協力する部分を飛ばしてる。表面的な理解だけで終わってる。これが、俺たちのコミュニケーションに目に見える影響を与えてるのは明らかだ。何か感じるけど、言葉にできない。みんなが深い詳細を求められると、自分が話してることを説明するのが難しくなってる気がするし、AIのおかげで、彼らは自分のアイデアが挑戦されることを望まなくなってる。学びの経験として捉えられなくなって、すでに何かのウィキペディアのような知恵を持っている人から学ぶチャンスを見失ってる。経験豊富な人が「それは良いアイデアじゃないかも、理由はこれだよ」と言うのを嫌がる人にとっては、完璧な技術だね。俺は、特定の分野や多くの分野において、ただの歩く百科事典のような面白い人たちに出会ったことがある。信じられないほど賢くて、知識や知恵が豊富で、技術だけでなく人や失敗、成功についても多くの経験を持ってる人たち。人間の脳が自然な形で決定プロセスと結びつく信じられないほどの情報を保持できることに疑いはない。みんながここで自分の「大図書館」を作ろうとしているギャップが何なのかは分からないけど、ただリラックスして、自分の脳がまだ最高の技術の一つであることを信じてほしい。
>> AIを使って、私たちは理解を貨物カルト化している。私たちは「マネージャー視点」を貨物カルト化しているんだ。ブレット・デヴローのブログにある「ゲーム・オブ・スローンズはエリートの視点から書かれている」という批評のように、これはユートピア的で、エリートには良さそうに聞こえる。でも、現実から完全に乖離したエリートのバブルのように、これはひどいことになるだろうね。フランス革命みたいに、AIによって「職を失った」人々が「パンが食べられない」と叫んでいるのに対して、「ケーキを食べさせればいいじゃん」って答えるような状況になるかも。
これが、中間管理職がLLM至上主義の教会の最初の信者になった理由だと思う。中間管理職は、役割における真の能力以外のすべてのインセンティブが、管理している知識作業を抽象化する方向に向かわせる、ちょっと変わった空間なんだよね。その抽象化は、埋め込み空間でうまく説明できるみたい。
これに関連して、真剣な仕事に興味がある人はLLMを使わないかもしれない。新しい「兆候」かもね。
もし亜原子粒子が実際には全宇宙で、その特性が…どんな人々がその宇宙を支配し、征服したか、そして彼らが去った後に残された自動化の種類を反映しているとしたら。自己構築を永遠に続けるエントロピー収穫の自動機械が、彼らの時空の中で全てになる。俺たちは自分たちよりも大きな力を生み出していて、戻れないポイントに達するかもしれない。
ちょっと理解できてないけど、君の言ってることは面白いね。宇宙の歴史を想像してみると、数十億の亜原子宇宙や文明が興亡を繰り返してる様子が浮かぶよ。多くは、自分たちの自律的な擬似知能技術に飲み込まれてしまって、良い面も悪い面もある。マクロな視点で見ると、それは粒子の振る舞いなんだ。今、私たちは自分たちの粒子を作っていて、私たちが属しているスーパー宇宙に影響を与えるような集団的な決断をしてるんだ。小さいけど、重要な影響をね。
AIのコードは、実際よりも悪く見えることが多い。冗長すぎて、混乱していて、何かがうまくいかないときに、何百万層ものtry/catchを通り抜けて、エラーが実際に発生した場所とは全く関係のないところにスタックトレースを移動させるようなフォールバックが散りばめられてる。でも、実際の機能性に関しては、人間が書いた似たようなコードよりもずっと良く動くんだよね。
君が言ってるようなコードは、結局悪いコードだよ。人間にもLLMにも理解しづらいからね。