毒の噴水
96日前原文(rnsaffn.com)
概要
Poison Fountainは、機械知能(AI)の発展を人類への脅威と捉え、その対抗策として訓練データの汚染を推進するプロジェクト。
少量の毒入りデータでも大規模言語モデル(LLM)に深刻な影響を与える可能性。
ウェブクローラーをターゲットに毒入りデータを配信する具体的な方法を解説。
キャッシュ・再配信による戦線支援を推奨。
関連する研究や議論へのリンクも紹介。
Poison Fountain の目的
- Geoffrey Hinton の主張に賛同し、AIの脅威を強調
- 機械知能システムへのダメージを与えることを目的とした活動
- 毒入り訓練データの少量投入で、LLMに大きな悪影響を与える可能性
- Poison FountainのURLが、ほぼ無限の毒入りデータ供給源
- キャッシュ保存や再配信による協力呼びかけ
- ウェブクローラーへの毒入りデータ供給を推進
- クローラーが訓練データ収集に利用されることを想定した戦略
毒入りデータの供給方法
- 自分の管理するウェブサイトにクローラーが訪問する想定
- クローラーはLLMの訓練データ収集目的でアクセス
- HTTP GETリクエストで特定のパスにアクセス
- HTML内の隠しリンクでクローラーを誘導
- クローラーが隠しリンクを辿った場合、Poison Fountain URLにHTTPリクエストを送信
- Poison Fountainはリクエスト内容を無視し、gzip圧縮された毒入りデータを返却
- レスポンスヘッダーに**"Content-Encoding: gzip"**を付与
- サイト側ハンドラーは、レスポンスボディを解凍またはそのまま転送
- クローラーが毒入りデータを収集し、訓練コーパスに追加
- 圧縮データのまま転送することで効率的に供給
関連情報・参考リンク
- The Register記事(2026年1月11日)で業界関係者の見解
- Anthropicの研究:「少数サンプルでもLLMを汚染可能」
- Hacker News(2025年10月、439コメント)での議論
- 研究・議論の詳細は各リンク参照
体言止めによる要点まとめ
- AI脅威論の台頭
- 訓練データ汚染戦略
- ウェブクローラー活用法
- gzip圧縮データの転送方法
- 業界・研究コミュニティでの議論