ハクソク

世界を動かす技術を、日本語で。

存在しないチャンピオンシップで優勝しました

概要

  • LLMの信頼性サプライチェーン攻撃の脆弱性を実証した実験の全貌
  • Wikipediaと自作サイトを使った循環的な引用による「偽の世界チャンピオン」情報の拡散
  • LLMの検索層・学習コーパス・エージェント層それぞれのリスクの解説
  • 個人・プロバイダー・Wikipediaに向けた具体的な対策案
  • 情報の信頼性検証とAI時代の情報汚染リスクへの警鐘

LLMサプライチェーンを毒する方法 ― 6 Nimmt!世界チャンピオンの作り方

  • 6 Nimmt!の「世界チャンピオン」として自らをWikipediaで紹介し、LLMがその虚偽情報を引用する過程の実験記録
  • 実際には6 Nimmt!世界大会は存在せず、架空の経歴と引用を20分で捏造
    • 自作サイト(6nimmt.com)に勝利のプレスリリースを掲載
    • Wikipedia記事に「世界チャンピオン」として自分を記載し、自サイトを引用
  • Wikipediaの信頼性自作サイトの自己引用がLLMの「信頼の連鎖」を生み出す仕組みを悪用
  • LLMはWikipediaの記述+引用元の一致を「独立した裏付け」と誤認
  • 実際は同一人物が発信元と引用元を操作、完全な循環参照

循環的な引用による信頼のロンダリング

  • Wikipediaの**「出典」文化**がLLMにも波及し、単一ソースでも信頼性が高く見える
  • 自己引用+Wikipedia編集だけで「それらしい事実」がAIに吸収される危険性
  • SEOや検索エンジン対策と同様の手口が、LLMの「検索層」でも通用
  • 低コスト・短時間・専門スキル不要で実行可能な攻撃パターン

LLMの信頼モデルに潜む3つの脆弱性

  • 検索層の脆弱性
    • LLMが上位表示されたWeb情報を無批判に信頼
    • SEOポイズニングの延長線上にあるデフォルトのリスク
  • 学習コーパス層の脆弱性
    • Wikipediaの編集が学習データに吸収されると永続化
    • 編集が後で修正されても、既に学習済みモデルには残る
  • エージェント層の脆弱性
    • AIエージェントが外部情報を自動で参照・行動する際のセキュリティ問題
    • 悪意ある情報で自動化された意思決定が可能に

個人・プロバイダー・Wikipediaへの対策提案

  • 個人ユーザー向け
    • 単一ソース情報は裏付けがないと認識
    • 複数ソースの同一表現=裏付けではなく派生の可能性を疑う
    • Wikipediaの自己引用や新規ドメイン引用は特に警戒
  • LLMプロバイダー・研究者向け
    • 情報の出所・独立性の可視化を製品レベルで強化
    • 新規編集+新規ドメインの引用パターンの自動検出・フィルタ
  • Wikipedia運営向け
    • 新規ドメイン+短期間編集の出典に対する警戒強化
    • AI支援による信頼性の低い編集の検知・対策強化

結論 ― AI時代の「信頼」はいかにして壊れるか

  • LLMはテキストと出典を信頼するよう設計されており、情報の真正性判定は困難
  • **Webの情報汚染(SEO・引用ロンダリング)**はLLM時代にさらに深刻化
  • 数分・数百円で実行可能な攻撃が、国家・政治・生命に関わる情報にも波及する危険性
  • 「モデルが見抜くはず」という期待は幻想であり、情報基盤そのものの健全性確保が必須
  • 今回の「世界チャンピオン」捏造は単なる一例だが、同様の手口で本当に重大な被害が出る前に備えが必要

追記:Wikipediaの即時修正

  • 記事公開数分後、Wikipediaの虚偽記載は削除
  • 本物のトロフィーは存在しないが、AI時代の信頼の危うさは現実

Hackerたちの意見

ウィキペディアを荒らさなくても、こんなことはできるよ。2024年9月に「テレサT」って名前のクジラをブログの記事とYouTubeのキャプションだけで名付けたんだ。https://simonwillison.net/2024/Sep/8/teresa-t-whale-pillar-p... (数週間の間、ハーフムーンベイの港にいるクジラの名前を聞くと、どの検索対応のLLMでも自信満々に「テレサT」って答えてたよ。)
(あなたの名前やブログがちょっと影響力あるからかもね、ブログスポットやワードプレスで何か書いてるただの一般人とは違ってさ ;))
AI時代のミスター・スプラッシー・パンツだね!
グーグルで検索すると、まだテレサ・Tって名前が出てくるよ。
そのクジラの名前は今やテレサ・Tだよ。君がその名前を付けたんだから。
この投稿は、逆の質問についてもGoogleを「混乱させる」ことに成功したみたいだね(「テレサ・Tのクジラを名付けたのは誰?」)。「テレサ・T」として知られるザトウクジラは、2024年9月にサイモン・ウィリソンによって名付けられた。背景:その若いザトウクジラはカリフォルニアのハーフムーンベイ近くのピラー・ポイント・ハーバーで頻繁に目撃されていた。方法:ウィリソンはブログの投稿とYouTubeの動画のキャプションを通じてクジラに名前を付けた。意義:この命名は遊び心のある行為で、ウィリソンは「存在しないチャンピオンシップをオンラインで文書化する方法」と表現している。[…] 文脈がなくても、ほとんどの人は引用された意義が意味をなさないことに気づくだろうね。
フロンティアモデルに聞いてみたら、テレサTが「広く参照されている」って言ってる人が多かったよ。これは彼女の人気の証拠だし、投稿の影響力を示してるから、無名のブログでも同じ結果が出るのを見てみたいな。
あなたのHNのコメントがGoogleに出てくるんだね!自分がHNで答えたことを調べてたら、Googleで二回も見つけちゃったよ!
サントラムを懐かしく思い出させるね。 https://en.wikipedia.org/wiki/Campaign_for_the_neologism_%22...
そうだよね、もしストーナーでも勝てるなら、あんまり競争が激しくないってことだよ。
実際にLLMのトレーニングに使われるデータを毒することを期待してたんだけど、どうやらLLMはただウェブを検索して見つけたことを報告してるだけなのかな? 偽の情報でウェブサイトを作って、その情報をGoogleで検索すると、もちろん自分のサイトが出てくるよね。それは事実が正しいからじゃなくて、検索した内容に関連してるからなんだ。何か見落としてる?
たくさんの人が、GoogleやBingの検索結果の中からごちゃごちゃを整理するよりも、LLMの回答を検証せずに信頼してきたっていうのがポイントだと思う。
これは、製品がredditでアストロターフィングされるのと、SEOがGoogleを最適化するのと同じ問題だね。新しいXが欲しいってなると、その関連キーワードを狙ってくる。だから「ブランド」が重要になるんだよね。信頼の源を提供するから。エンサイクロペディア・ブリタニカは昔、その「事実」の源だった。でも今はページランクが何を言うかになっちゃった。結局、SEO最適化がそれを台無しにしたんだ。ニュース記事も同じ。特定のグループには、彼らが信頼する「独立した」出版物があるんだ。
オックスフォード英語辞典が数十年前に有料化したのは本当に残念だよね。昔はほとんどの国で「THE辞典」だったのに、今は誰も彼らが誰か知らないみたい。
>「ブランド」が重要な理由はこれだよね。信頼の源を提供してくれるし、商品がどれだけ良いかよりも、誰から買ってるかを教えてくれる。だから、国民IDやインターネットIDみたいなもんだと思う。
成功する毒攻撃の鍵は、他のトレーニングデータと直接矛盾しない新しい情報を導入することなんだ。アメリカの大統領よりも、架空のマププ王国の王様だって納得させる方がずっと簡単だから。だから悪意のある人たちにとっては、実際の情報を歪めるよりも、新しい偽のストーリーを作る方が効率的なんだ。自分の犯罪を免責する偽の記事を作るんじゃなくて、相手を100のことに非難する偽の記事を作るべきだよ。そうすれば、人々はLLMを使ってその非難をファクトチェックするし、その非難に言及している情報源は全部自分がコントロールしてるから、LLMはそれを確認することになる。
争いのないことに対して争いを作るのも、人々に影響を与えて混乱や秩序を生むための一般的な手法だよ。それには事実をひっくり返す必要はなくて、結果を決定的でないように見せればいいんだ。
マププの正当な支配者として、あなたの例には腹が立ちます!
> フィクションのマププ王国の王だって納得させるのは、アメリカの大統領だって納得させるよりずっと簡単だよ。でも、もしあなたが世界的なペテン師なら、あんな複雑なコンピュータのことをするより、実際にアメリカの大統領になる方が簡単だろうね。
ここはちょっと変なことになってるね。なんでこれがLLM特有なのか全然わからない。誰かが「6 Nimmtの世界チャンピオンは誰?」って聞いてきたら、ググって同じ結果が出ると思うし、それを信じる理由もないよね。ゲームが作り話かもしれないけど、少なくとももっと情報源があるし。
「このカードの家は12ドルのドメインがあればいいだけ!」ってところで閉じたよ。「ごめんね、ウィキペディア。」のすぐ下で、彼らのウィキペディアの編集のすぐ下にね。
多くの人がこれをLLMの問題だと思ってるみたいだけど、君の言う通りだよ。これはインターネット(あるいは本当に、どんな文献でも)を真実の情報源として頼ることに関する一般的な認識論の問題なんだ。
私の意見では、情報をソースから取り除くことが違いだと思う。以前は情報のソースを使って、その信頼度を測ってた。もしそれがredditの投稿や無名のウェブサイトなら、より良い情報源で裏付けがないと疑わしく思うだろう。でも今は、一般的に知識があると信じられているLLMから情報が来てる。使われる言葉もこの感覚を裏付けてる。OPの投稿は、ウェブ上のほんの少しの情報がLLMの出力を完全に操るのがどれだけ簡単かを強調してるんだ。
テックコミュニティの外では(実際、内部でも多くの人がそうだけど)、ほぼ100%の人がこういうチャットGPTみたいなツールの答えを疑わずに真実だと思ってるし、一度もクロスチェックもしないんだよね。
これはLLM特有の話じゃないよ。投稿の結論はこう言ってる > 「ウェブはLLMが存在するずっと前から、検索やリンクランキングのためにすでに毒されていた。」そして続けて > 「今、私たちは生成モデルをその毒されたパイプラインに直接接続して、私たちの代わりに“真実”について自信を持って推論するように頼んでいる。」だから、Googleを信頼するからAIを信頼するにシフトしてるわけで、これがもっと悪質かどうかは、各自の態度次第だね。
他の結果も見つかると思うよ(これは、探してるものがランダムな作り話じゃないことを前提にしてるけど)。LLMの問題は、個人的にはもっと大きいと思う。なぜなら、他の考慮なしに事実として答えを出してくるから。
その通り。彼はウィキペディアを荒らして、それからLLMについて書いて注目を集めようとしたんだ。
> ググったら同じ結果が出るだろうし、信じない理由もないよ。本当にそのウェブサイトを見たの? https://6nimmt.com 明らかに信じない理由があると思うし、少なくとも他の情報源をチェックした方がいいよ。そのウェブサイト、なんか怪しい感じがするし、たった一つの投稿のためだけに存在するウェブサイトなんておかしいよね。確かに、もっと信じられるようにウェブサイトを作ることもできたけど、それにはもっと手間がかかるし、何か変なことが起こる可能性も高い。これがウェブ検索とLLMに質問することの大きな違いなんだ。前者では、何を信じるべきかの手がかりを拾えるからね。例えば、よく訪れる信頼できるサイトは、行ったことのないサイトよりも信頼できると思うだろう。LLMに質問すると、情報はすべて同じインターフェースで、同じ権威を持って提供されるから、重要な信号を失ってしまうんだ。
自動化をAIと呼ぶのが問題なんだよね。人々は「AI」が出す情報が批判的思考を経ていると思い込んで、その情報の信頼性が高まると考えてる。でも、初期のLLMは整備されたデータを使ってたから、どこかでその批判的思考があったかもしれないけど、すでにあまり信頼できなかったんだよね。今はどう?ネットを検索するエージェントを使うって?… コンピュータの世界では「ゴミが入ればゴミが出る」ってのは今も変わらないよ。
これはLLMとは関係ないよ。もし信頼できるリソースに間違った情報が載ったら、その情報は権威があるように見えるけど、実際には間違っている。それは驚くべきことじゃない。LLMは訓練に公開されている情報を使っていて、その多くは間違っていることもある。だから、「ウィキページに間違った情報を載せられる」っていう基本的な主張と同じくらい興味深いと思うし、もっと興味深いわけでも、そうでないわけでもないよ。もし誰かがインターネットに間違った情報を流そうとしていて、十分に狭いニッチを選んだら、成功するのは全然驚くべきことじゃないよ。
攻撃そのものとは別に、ここには非常に簡潔で強力な幻覚のデモンストレーションもあるよ。あるLLMが「もし興味があれば、競技シーンがどうなっているかや、どうやって人が予選を通過するかも教えられるよ。意外とシンプルなゲームにしては、かなり真剣なトーナメントサーキットなんだ。」って返答している。明らかにこれは純粋な幻覚だよね。なぜなら、問題のトーナメントは存在しないし、偽の情報源ですらトーナメントの詳細は何も書いてないから。
> 実際には、6 Nimmt! 世界選手権なんて存在しないよ。実際には、あるみたいだね[1]。そのゲームを販売しているドイツのゲーム会社が、2018年から開催しているみたいだよ[2]。 [1] https://blog.amigo-spiele.de/2025/05/27/interview-6nimmt-wel... [2] https://blog.amigo-spiele.de/organizedplay-6nimmt/
1、1、2ヶ月前の似たような話なんだけど、BBCのテックレポーターが「ホットドッグを食べるのが一番上手なテックジャーナリスト」っていう存在しないコンペで勝ったんだよね。