インターネットアーカイブのインフラストラクチャの内部

93日前原文(hackernoon.com)

概要

Bruce Liによる記事の概要と著者情報
NKN.org共同創業者による技術・未来志向の話題
Wayback MachineやIPFSなどの分散型ウェブ技術に触れる内容
関連するデータストレージやプログラミングのトピック紹介
Heritrix3のGitHubリポジトリへのリンク付き

Bruce Liと最新技術トピックの紹介

Bruce Li（NKN.org共同創業者）が執筆した記事の概要
プログラミング、テックスタック、フューチャリズム、インターネットアーカイブなどのテーマ
Wayback MachineやIPFSなどの分散型ウェブ（DWeb）技術の紹介
データストレージやデータ品質、コードレビューの重要性が強調される内容
Hackernoonなどの著名メディアで取り上げられた実績
- 関連ストーリーへのリンクやタグ付け
- データロスやダウンタイム削減の方法論
Heritrix3（インターネットアーカイブ用クローラー）のGitHubリポジトリ案内
- https://github.com/internetarchive/heritrix3

著者情報とフォロー案内

Bruce Liの他の記事やプロフィールへのリンク
@zbruceliでのSNSフォロー推奨
NKN.orgでの活動紹介

Heritrix3について

Heritrix3はインターネットアーカイブ用のオープンソースWebクローラー
GitHubリポジトリで公開・管理
分散型ウェブやデジタルアーカイブ分野で活用例多数
研究者や開発者向けの技術リソース

Hackerたちの意見

1990年代後半にシスアドとして働いていた頃から、彼らは本当に大きく成長したよ。当時はデータセンターが数台のラックとテープロボットだけで、プレシディオオフィスの裏部屋にあって、床が妙に傾いてたんだ。テープロボットの業者が、もっと頻繁にテープドライブの再調整に来なきゃいけなかったのは、ちょっと面倒だったな。

└

テープ技術には、今でも根強い抵抗があるんだ。これまでのトラブルのせいでね。

└

サーバールームがあって、ACがラックの真上に取り付けられてたんだ。傘をそこに置いたことはないけど、排水パイプが詰まるんじゃないかってみんな緊張してた。最近では中規模のSaaS企業で働いてたけど、同僚の話を聞くとまるでGoogleみたいだった（楽観主義が妄想に変わる境目があって、何人かの同僚はそれを越えてた）。ある日、Wikipediaのテレメトリーページを見つけたんだ。あのチャートのいくつかは1時間ごとのものだといいな、そうじゃないと信じられない量のトラフィックを扱ってることになる。

IAは重複排除をやってるの？

└

君が言ってるようなやり方ではないよ。アーカイブは常に、ラックをドアの外に押し出したり、どこかから持ち上げたりできる状況を維持しようとしてきたんだ。個々のドライブにはアイテムの完全なバージョンが入ってる。重複作業をしている人たちには、連絡してやめてもらうか、重複しているアイテムを削除する許可を求めたりしてるけど、これはかなりキュレーション的なプロセスだね。

インターネットアーカイブを（選択的に）ミラーリングする方法がないのはもどかしいよ。年間2500万〜3000万ドルは、非営利団体には大きいけど、政府機関やジェネAIモデルを作ってる民間企業にとっては何でもない金額だと思う。いくつかのチームが（資金を得るために）競争すれば、ハードウェアコストもすぐに下がるだろうね。引用されている密度と電力消費の数値は、エンタープライズストレージと比べると非常に悪い。エンタープライズシステムのハードウェアコストもAWSよりずっと低いし（エンタープライズボックスの短い5年の減価償却サイクルを仮定してもね）。この記事も業者も、総所有コスト分析を徹底するための価格情報を十分に公開していないけど、IAの規模の組織が業者に通常のマージンを支払っているとは思えないな。

└

ミラーリングしたいアイテムを選んで、トレントファイルを使ってシードしてね。 https://help.archive.org/help/archive-bittorrents/ https://github.com/jjjake/internetarchive https://archive.org/services/docs/api/internetarchive/cli.ht... u/stavrosが「エレファント」というコードネームのシステムの設計書を書いてるよ。これをスケールアップするためのものだね: https://news.ycombinator.com/item?id=45559219 （関係ないけど、私はただの一般人だよ。もし君が図書館や博物館、似たような機関なら、IAにラックをコロケーションで設置してもらうよう頼んでみて。いつも通り、できるときはIAに寄付するのを忘れずに、彼らのインフラにも優しくね。）

└

Wayback Machineからコンテンツを適切なAPIで引き出せるようになりたいな。[1] リクエストごとやギガバイトごとの料金を払うことにも抵抗はないよ。でも、アーカイブの非営利図書館としての特別な地位を考えると、有料APIアクセスを提供すること（コストをカバーするためだけでも）が、今の組織と合うのかは疑問だね。[1] これがある程度存在するみたいだけど、例えば https://github.com/hartator/wayback-machine-downloader、これを使おうとして数週間試してるけど、毎日HTTP 5xxエラーか「接続拒否」になっちゃうんだ。

└

2008年に、変な奴らが分散ストレージを作ってhentai@homeを立ち上げて、エロ漫画をホストしたってのは信じられないよ。もう20年近く経つのに、まだこの解決策を一般化できてないんだ。h@hにはプライバシーの問題があるのは分かってる（ホスティングする側は自分のIPを晒して、漫画を読んでる人も自分のIPを晒してるからね）けど、それはトンネルで解決できるし、実際の価値は冗長ストレージにあると思うんだ。

└

AI企業がコンテンツのためにIAをむしり取って、解決策の一部になろうとしないのはひどいよね。

└

インターネットのための公共放送サービスがあったらいいなと思うけど、今のところそのお金は実際のPBSから引っ張られちゃうんじゃないかって心配。

└

IPFSノードを運営して、インターネットアーカイブのコレクションをピン留めするのは良い方法かな？

これってなんかコピペされたAIの出力じゃない？いくつかの文の最後にフォーマットされてない脚注番号があるし。

└

私も同じこと考えてた。校正がないのは確実におかしいよね。前にこの部分を読んだ気がする。

└

一部の画像はAI生成だね（右下にあるジェミニのウォーターマーク見て）、最後の段落もめっちゃAIっぽい。

IAにはお金だけじゃなくて、もっと才能のある人が必要だと思う。技術的な観点から見ると、停滞してるんじゃないかって心配。

これは完全に深いリサーチによって書かれたものだと思う。なんか、ぎこちない低品質の記事みたいに読める。

└

明らかにAIが書いた感じだね（「うーん」、「掘り下げる」）けど、意外と深い研究モデルはそんな言葉使わない気がする。

IAは今月、リック・プリングラーのショーをもういくつか開催するみたい。行くのが楽しみ！

これ、archive.todayと比べてサイズはどれくらいなんだろう？

ペタボックスを宇宙に送るのにどれくらい時間かかるんだろう？

この文章、俺の好みにはちょっとLLMすぎるな。

ハクソク

インターネットアーカイブのインフラストラクチャの内部

概要

Bruce Liと最新技術トピックの紹介

関連トピックと記事例

著者情報とフォロー案内

Heritrix3について

Hackerたちの意見