ハクソク

世界を動かす技術を、日本語で。

インターネットアーカイブのインフラストラクチャの内部

概要

  • Bruce Liによる記事の概要と著者情報
  • NKN.org共同創業者による技術・未来志向の話題
  • Wayback MachineIPFSなどの分散型ウェブ技術に触れる内容
  • 関連するデータストレージプログラミングのトピック紹介
  • Heritrix3のGitHubリポジトリへのリンク付き

Bruce Liと最新技術トピックの紹介

  • Bruce Li(NKN.org共同創業者)が執筆した記事の概要
  • プログラミングテックスタックフューチャリズムインターネットアーカイブなどのテーマ
  • Wayback MachineIPFSなどの分散型ウェブ(DWeb)技術の紹介
  • データストレージデータ品質コードレビューの重要性が強調される内容
  • Hackernoonなどの著名メディアで取り上げられた実績
    • 関連ストーリーへのリンクやタグ付け
    • データロスダウンタイム削減の方法論
  • Heritrix3(インターネットアーカイブ用クローラー)のGitHubリポジトリ案内
    • https://github.com/internetarchive/heritrix3

関連トピックと記事例

  • Coronavirus対応策のエンジニア視点
  • モダンコードレビューの優先順位に関する調査
  • データ品質が開発者体験の指標となる理由
  • テクニカルデットとVibe Codingの関係
  • データベースのデータ損失・ダウンタイム対策
  • データストレージの学習リソース集

著者情報とフォロー案内

  • Bruce Liの他の記事やプロフィールへのリンク
  • @zbruceliでのSNSフォロー推奨
  • NKN.orgでの活動紹介

Heritrix3について

  • Heritrix3はインターネットアーカイブ用のオープンソースWebクローラー
  • GitHubリポジトリで公開・管理
  • 分散型ウェブデジタルアーカイブ分野で活用例多数
  • 研究者開発者向けの技術リソース

Hackerたちの意見

1990年代後半にシスアドとして働いていた頃から、彼らは本当に大きく成長したよ。当時はデータセンターが数台のラックとテープロボットだけで、プレシディオオフィスの裏部屋にあって、床が妙に傾いてたんだ。テープロボットの業者が、もっと頻繁にテープドライブの再調整に来なきゃいけなかったのは、ちょっと面倒だったな。
テープ技術には、今でも根強い抵抗があるんだ。これまでのトラブルのせいでね。
サーバールームがあって、ACがラックの真上に取り付けられてたんだ。傘をそこに置いたことはないけど、排水パイプが詰まるんじゃないかってみんな緊張してた。最近では中規模のSaaS企業で働いてたけど、同僚の話を聞くとまるでGoogleみたいだった(楽観主義が妄想に変わる境目があって、何人かの同僚はそれを越えてた)。ある日、Wikipediaのテレメトリーページを見つけたんだ。あのチャートのいくつかは1時間ごとのものだといいな、そうじゃないと信じられない量のトラフィックを扱ってることになる。
IAは重複排除をやってるの?
君が言ってるようなやり方ではないよ。アーカイブは常に、ラックをドアの外に押し出したり、どこかから持ち上げたりできる状況を維持しようとしてきたんだ。個々のドライブにはアイテムの完全なバージョンが入ってる。重複作業をしている人たちには、連絡してやめてもらうか、重複しているアイテムを削除する許可を求めたりしてるけど、これはかなりキュレーション的なプロセスだね。
インターネットアーカイブを(選択的に)ミラーリングする方法がないのはもどかしいよ。年間2500万〜3000万ドルは、非営利団体には大きいけど、政府機関やジェネAIモデルを作ってる民間企業にとっては何でもない金額だと思う。いくつかのチームが(資金を得るために)競争すれば、ハードウェアコストもすぐに下がるだろうね。引用されている密度と電力消費の数値は、エンタープライズストレージと比べると非常に悪い。エンタープライズシステムのハードウェアコストもAWSよりずっと低いし(エンタープライズボックスの短い5年の減価償却サイクルを仮定してもね)。この記事も業者も、総所有コスト分析を徹底するための価格情報を十分に公開していないけど、IAの規模の組織が業者に通常のマージンを支払っているとは思えないな。
ミラーリングしたいアイテムを選んで、トレントファイルを使ってシードしてね。 https://help.archive.org/help/archive-bittorrents/ https://github.com/jjjake/internetarchive https://archive.org/services/docs/api/internetarchive/cli.ht... u/stavrosが「エレファント」というコードネームのシステムの設計書を書いてるよ。これをスケールアップするためのものだね: https://news.ycombinator.com/item?id=45559219 (関係ないけど、私はただの一般人だよ。もし君が図書館や博物館、似たような機関なら、IAにラックをコロケーションで設置してもらうよう頼んでみて。いつも通り、できるときはIAに寄付するのを忘れずに、彼らのインフラにも優しくね。)
Wayback Machineからコンテンツを適切なAPIで引き出せるようになりたいな。[1] リクエストごとやギガバイトごとの料金を払うことにも抵抗はないよ。でも、アーカイブの非営利図書館としての特別な地位を考えると、有料APIアクセスを提供すること(コストをカバーするためだけでも)が、今の組織と合うのかは疑問だね。[1] これがある程度存在するみたいだけど、例えば https://github.com/hartator/wayback-machine-downloader、これを使おうとして数週間試してるけど、毎日HTTP 5xxエラーか「接続拒否」になっちゃうんだ。
2008年に、変な奴らが分散ストレージを作ってhentai@homeを立ち上げて、エロ漫画をホストしたってのは信じられないよ。もう20年近く経つのに、まだこの解決策を一般化できてないんだ。h@hにはプライバシーの問題があるのは分かってる(ホスティングする側は自分のIPを晒して、漫画を読んでる人も自分のIPを晒してるからね)けど、それはトンネルで解決できるし、実際の価値は冗長ストレージにあると思うんだ。
AI企業がコンテンツのためにIAをむしり取って、解決策の一部になろうとしないのはひどいよね。
インターネットのための公共放送サービスがあったらいいなと思うけど、今のところそのお金は実際のPBSから引っ張られちゃうんじゃないかって心配。
IPFSノードを運営して、インターネットアーカイブのコレクションをピン留めするのは良い方法かな?
これってなんかコピペされたAIの出力じゃない? いくつかの文の最後にフォーマットされてない脚注番号があるし。
私も同じこと考えてた。校正がないのは確実におかしいよね。前にこの部分を読んだ気がする。
一部の画像はAI生成だね(右下にあるジェミニのウォーターマーク見て)、最後の段落もめっちゃAIっぽい。
IAにはお金だけじゃなくて、もっと才能のある人が必要だと思う。技術的な観点から見ると、停滞してるんじゃないかって心配。
これは完全に深いリサーチによって書かれたものだと思う。なんか、ぎこちない低品質の記事みたいに読める。
明らかにAIが書いた感じだね(「うーん」、「掘り下げる」)けど、意外と深い研究モデルはそんな言葉使わない気がする。
IAは今月、リック・プリングラーのショーをもういくつか開催するみたい。行くのが楽しみ!
これ、archive.todayと比べてサイズはどれくらいなんだろう?
ペタボックスを宇宙に送るのにどれくらい時間かかるんだろう?
この文章、俺の好みにはちょっとLLMすぎるな。