ハクソク

世界を動かす技術を、日本語で。

インターネットアーカイブのブロックはAIを止めることはできないが、ウェブの歴史的記録を消してしまう

概要

  • The New York Timesなど大手新聞社がInternet Archiveによるウェブ記事保存をブロック
  • Wayback Machineが歴史的記録保持に重要な役割
  • AIによるスクレイピング懸念が背景
  • アーカイブ制限は歴史的記録の消失リスク
  • 検索・アーカイブはフェアユースとして法的にも保護対象

大手新聞社によるInternet Archiveブロックの影響

  • The New York Timesが技術的手段でInternet Archiveのクロールを制限する動き
  • この動きはrobots.txtの従来ルールを超えた新たなブロック技術の導入
  • The Guardianなど他の新聞社も同様の措置を検討
  • 約30年間、歴史家・ジャーナリスト・一般市民がアーカイブに依存
  • アーカイブされた記事は編集履歴や削除記事の唯一の信頼記録となる場合が多い
  • 記事の改変や削除が日常的に行われる現状
  • アーカイブがブロックされることで歴史的記録の消失が現実化

AIスクレイピング懸念と出版社の対応

  • 新聞社側はAI企業による記事スクレイピングへの懸念を表明
  • The New York Timesをはじめとした複数社がAI企業を著作権侵害で訴訟中
  • AI学習のフェアユース性については法廷で決着がついていない
  • しかし、非営利アーカイブまで制限するのは過剰対応という指摘
  • Internet Archiveは商用AI開発ではなく、歴史記録の保存が目的

公共記録保存の意義と法的根拠

  • アーカイブや検索エンジンによる資料の複製・検索性向上は法的にフェアユース
  • Google Booksの判例など、検索目的の複製は変容的利用として認められている
  • Internet Archiveはウェブ版図書館として歴史的記録保存を担う
  • Wikipediaは260万以上のニュース記事をアーカイブにリンク
    • 249言語にわたる記録
  • 多数の研究者・ジャーナリスト・ブロガーが信頼性の高い記録源として依存

アーカイブ制限の危険性と今後の課題

  • 検索エンジンを守る法的原則はアーカイブ・図書館にも適用されるべき
  • AI学習の法的争点と記録保存の権利は分けて考える必要
  • アーカイブの制限は歴史的記録の消失という取り返しのつかない損失を招く
  • AI訴訟のために公共記録を犠牲にするのは重大な過ち
  • 今後も公共の利益と著作権保護のバランスが重要課題

Hackerたちの意見

インターネットアーカイブには、分散型の住宅IPクローラーのプログラムはあるのかな?それに積極的に貢献したいと思ってる。そんな仕組みには改ざんを防ぐメカニズムが絶対必要だよね。
インターネットアーカイブにはないけど、アーカイブチームにはあるよ: https://wiki.archiveteam.org/index.php/ArchiveTeam_Warrior
> そんな仕組みには改ざんを防ぐメカニズムが絶対必要だよね。TLSを彼らの側で終了させれば、あなたの側では簡単なことだよ。だから、あなたはただの住宅プロキシになるだけ。
いいえ、IAはすべて透明性を持ってやってるし、無効なDMCAの削除要求も尊重してるよ。
> 最近、ニューヨークタイムズがアーカイブのウェブサイトのクローリングをブロックし始めたんだって。ウェブの伝統的なrobots.txtのルールを超えた技術的手段を使ってるみたい。それによって、歴史家やジャーナリストが何十年も頼りにしてきた記録が切り離されるリスクがあるよね。他の新聞、特にガーディアンも同じようにしてるみたい。今までこれについて読まなかったのはちょっと驚きだけど、残念ながら驚くことではないね。 > タイムズは、この動きがAI企業がニュースコンテンツをスクレイピングすることへの懸念から来ていると言ってる。出版社は自分たちの作品がどう使われるかをコントロールしたがっていて、いくつかの出版社—タイムズも含めて—が著作権のある素材でモデルをトレーニングすることが法律に違反するかどうかでAI企業を訴えてる。こうしたトレーニングがフェアユースである強い根拠があると思う。多分、企業が人々にペイウォールをスキップさせたくないっていうのもあるんだろうけど(アクセスがなかったとしてもお金を払うかどうかは別の話)。でも、この議論はガーディアンには当てはまらないよね。
ガーディアンのウェブサイトに行って、モットーを確認しようとしたら(ワシントンポストのモットーと混同してた)、こんな(面白い?悲しい?)バナーが出てきた。まるでクロスサイトトラッキングをブロックするのが悪いかのように。 > 拒否は痛い… あなたは私たちのサイトを閲覧中にサードパーティのクッキーを拒否することを選びました。サードパーティのクッキーが使えないと、私たちのジャーナリズムを支えるために広告を売る収入が減ってしまいます。私たちは、信頼できる事実に基づいた情報へのアクセスが公共の利益にかなうと信じているからこそ、ペイウォールなしで誰でもウェブサイトを開放しています。パーソナライズされた広告を受け取りたくないけど、ガーディアンが24時間365日素晴らしいジャーナリズムを生み出すのを支援したい場合は、ぜひ今日サポートしてください。ほんの1分で済みます。ありがとう。
これがarchive.isが作られた理由だよ。私たちはそのクリエイターを追い詰めて罰するのをやめて、この非常に役立つプロジェクトを支援すべきじゃない?
クリエイターは匿名性を保てるんだ。彼らは、archive.isのトラフィックを使って自分の身元を暴こうとしているジャーナリストに対してDDOS攻撃を仕掛けたことで、称賛され続けるべきではない。彼らの行動から、気まぐれで復讐心が強く、他人のDDOSにユーザーを巻き込むことを厭わないことがわかる。誰であれ、彼らはひどい。
同意。もしarchive.isがダウンしたら、archive.orgがウェブアーカイブの事実上の独占になる。それは問題で、archive.orgはサイト所有者からの削除リクエストを尊重するから。古いドメインを買えば、理論的にはそのアーカイブされた歴史をきれいに消せるんだよね。
メディアは自分たちのAIへの貢献を過大評価してると思う。もし彼らが存在しなかったら、AIの発展には全く影響を与えなかっただろうし、彼らがもっと生産的だったとしても、LLMの質には何の影響もなかったと思う。
あのモデルたちはどうやって訓練されると思う?ウィキペディアやReddit、非フィクションの本や学術論文だけじゃ限界があるよ。
ウェブ全体がゴミで溢れてる中で、非LLM生成のテキストがトレーニングにもっと価値を持つようになってない?AI企業に新しい人間生成のテキストを(同意なしに)使わせないのは、正当な戦略だと思う。
常にオンラインの私としては、ちょっと考え直さなきゃいけないかも。囲いの中で楽しむのが好きじゃない限り、ドゥームスクロールや終わりのないAIのゴミみたいなものが続くのは、もう楽しさがなくなった気がする。
ニューヨークタイムズはひどい。将来の人たちに見てもらうために、アーカイブしてほしい。
読んでないんだけど、なんでひどいの?
メディアの意見記事は、ただのプロパガンダに過ぎない。どのメディアも、自分たちのイデオロギーに合った人だけが記事を書くことを許可してる。
非常に攻撃的なAIクローラーの流入と戦っているサイト運営者として、今は自分の対策がインターネットアーカイブをブロックしてしまったのか心配になってる。彼らが私のサイトをスクレイピングするのは全然構わないけど、最近はFacebookですらrobots.txtを無視して、指定したクロール遅延を超えて多くのIPにトラフィックを分散させてる。(Facebook専用の特別なnginxルールも作ってる。)特定のJA3ハッシュをブロックするのが今のところ最も効果的な対策だった。ただ、hugin-netの周りにnginxラッパーがあって、TCPフィンガープリンティングもできたらいいのに。Rustは知らないし、LLMに頼むのも怖いしね。あのアプローチにはレースコンディションの問題もあって、受動的なフィンガープリンティングだから、最初の接続ではJA4ハッシュも使えないし、見たAIクローラーはIPごとに1リクエストしかしないから、2回目のリクエストをブロックするチャンスがないんだよね(絶対に起こらない)。
JA3のランダム化やなりすましみたいな回避技術は、検出を回避できるんだよね。
ホワイトリストに登録されたキーの署名で回避できるボット対策って、実用的なんだろうか…この場合、サーバーはインターネットアーカイブのクローラーを喜んで受け入れるだろうね。
> 彼らはおそらくrobots.txtに従うだろうね。もしそうなら…役に立つサービスを提供しているにもかかわらず、サイトオーナーに対してはあまり親切じゃないんだ。インターネットアーカイブはこう言ってる: > 「ウェブアーカイブの未来は、検索エンジン向けのrobots.txtファイルの宣言に依存しなくなると考えています」 https://blog.archive.org/2017/04/17/robots-txt-meant-for-sea... 彼らだけじゃないよ。「Archiveteam」という別の組織も、archive.orgとは混同しないでね、彼らもウィキによるとrobots.txtを尊重してないみたい。 https://wiki.archiveteam.org/index.php?title=Robots.txt 大きなアーカイブ組織は、サイトオーナーへの配慮がほとんどないと言ってもいいと思う。それが必要かどうかは別の議論だね。
今すぐアーカイブして、Xの時間が経ったら公開する。そうすれば、出版社とアーカイバーの両方が満足するか、少なくとも悲しみが減るかも。
現状維持についてのコメントが多いけど、AIスクレイパーを止める方法がもうないって認めてる人の意見を聞きたいな。それが今後のインターネット上の公共情報の維持にどう影響するのか。今のサーバーホスティングの形を保つための半分成功する解決策が見つかるとは思うけど、その結果生まれるスキームには参加したくないかも。だから、そういうスキームを避ける方法を考えてる。今は無理でも、すぐに人間のブラウザとLLMエージェントの区別がつかなくなるって考えが主流みたい。彼らはGUIセッションを開始して、ブラウザを開いて、あなたのページにアクセスして、OSレベルからスナップショットを取って、その内容を逆算したり、ブラウザのデベロッパーツールを使ってスクレイピングしたりすることができる。確かに、今やってることよりもずっと遅くて非効率的だけど、AIのセキュリティの最前線にいる人たちにはそれが必要になる。その他の人たちは、高額な利益と戦うセキュリティレースにいるわけだから、誰かがアーカイブを止めることができる公共のインターネットを持つっていう考えは、すぐに古臭いものになる気がする。だから、今の人たちが止めようとしていることを止められないってことを前提にして、どうやってスクレイピングを個々のホストにとって負担を減らせるか考えたい。これが「アーカイブ」を信頼できる中央集権的な権威に集約されて、LLMがスクレイピングするためのもっと構造化されたフレンドリーな方法になるのか?それとも、誰かがLLMやそのホストに「悪い」行動に対して罰を与える方法を考える可能性が高いのか?それとも、完全に的外れなのか?誰かが実際にこの話をしてるの?もしそうなら、何が話題になってるの?
嫌がるかもしれないけど、一つの答えはブロックチェーンかも。情報を共有リポジトリに追加するための、暗号的に強い、証明可能な公共記録だよ。人間用の暗号署名と組み合わせれば、基本的には人間の知識のための安全でオープンなGitリポジトリになる。