ハクソク

世界を動かす技術を、日本語で。

「小さなウェブ」は思っているよりも大きい

概要

  • 非商用・個人利用のためのインターネット再発見の動き
  • Small webGeminiプロトコルの特徴と現状
  • フィードアグリゲーターによる更新情報の集約
  • Kagi small webリストを用いた規模と活動頻度の分析
  • Small webは活発だが、全更新の一括集約は困難

Small webとGeminiプロトコルの現状

  • Small webは、通常のWebブラウザとサーバーを使いながらも、広告や企業トラッキングのないプライベートサイトを指す
  • Geminiプロトコルは、Webとは異なる独自プロトコル・ソフトウェアを用い、商業利用がほぼ不可能な制限が特徴
  • Geminiは世界で約6,000カプセル(サイト)が存在するが、多くは停止状態
  • Geminiコミュニティは主にITプロフェッショナル中心の小規模集団
  • Geminiのオンラインフォーラムでは、アクティブユーザーは100人程度

フィードとアグリゲーターの役割

  • GeminiカプセルもWebサイト同様、更新をフィードで通知
  • フィードは**ATOMやRSS(XML形式)**で提供、更新日時情報を含む
  • フィードアグリゲーターは複数サイトのフィードを収集し、時系列で公開
  • Geminiでは、アクティブなカプセルが少ないため、全更新を1ページで一覧可能という利便性
  • Gemini用フィードアグリゲーターは複数存在し、新規コンテンツ発見が容易

Small web全体のフィード集約の試み

  • Small web全体で同様の集約が可能かを検証
  • Kagi検索エンジンのsmall webイニシアチブによるサイトリストを利用
    • このリストはユーザー推薦の個人サイトやブログ中心
    • 掲載条件には「smallness」と更新フィードの公開が含まれる
  • 昨年は約6,000サイトだったが、現在は32,000サイトに増加
  • 重要なのはサイト数ではなく、更新頻度

更新頻度の調査と現実的な集約規模

  • サイトごとの更新頻度調査のため、各フィードのダウンロードとタイムスタンプ解析を実施
  • タイムスタンプがない、無効なフィード、ダウンしているサイトは除外
    • 有効なサイトは約25,000件
    • 月1回未満の更新サイトも除外し、9,000サイトに絞り込み
  • 2024年3月15日には1,251件の更新を確認
  • これらの更新は単なる修正でなく、新規コンテンツ追加
  • 結論として、small webは活発すぎて1ページで全更新を集約するのは非現実的

Small webの意義と今後

  • small webは「サイト数」ではなく、商業的影響のなさで定義
  • 広告主導のインターネットの中で、個人・非商用サイトが健在であることは祝福すべき事実
  • Webmentionなどを使い、反応や更新通知も可能

要点まとめ

  • Small webとGeminiは非商用・個人主導のインターネット再評価の象徴
  • Geminiは小規模・限定的だが、small webは意外に活発
  • 全更新を一括集約する試みは、small webの規模拡大で困難に
  • それでも非商用ウェブの存在意義は大きい

Hackerたちの意見

この記事が触れている重要な点があると思う。人々はまだブログを書いているけど、Googleがアルゴリズムを収益化のために最適化して、役に立つ情報を埋もれさせているんだ。もし、検索エンジンが本物の人々のために選んだウェブを見たいなら、https://marginalia-search.com をチェックしてみて。これは、リアルな人々によるブログや文章を見つけることを目的とした検索エンジンなんだ。使うたびに出てくるものにいつも驚かされるし、本当に新鮮な気持ちになるよ。今はNLNetに一時的に資金提供されていて、プロジェクトの内容もすごく期待できる。長期的に成功してほしいプロジェクトの一つだね。古いウェブは死んでるわけじゃなくて、ただ埋もれてるだけで、掘り起こすことができると思う。独立した収益化されていない検索エンジンは、インターネットアーカイブと同じくらい価値のある公共財だと思う。私の知る限り、marginaliaはGoogleのインデックスをちょっといじるだけじゃなくて(他の検索エンジンがやってるように)、本当に独立して実用的な範囲と目標を持とうとしている唯一のプロジェクトなんだ。
> Googleが収益化のためにアルゴリズムを最適化しているわけじゃないと思う。むしろ、「役に立つ」というのは主に商業的な意図と同義だと思う。検索することはしばしば「買いたい」という意味になるしね。非商業的なクエリでも、残念ながら多くの人は無意識のうちにLLM生成やコンテンツファームのものを好んでいると思う。見た目がプロっぽいし、いい画像がある(それがストックフォトやAI生成だとしても関係ないし)。空が青い理由を知りたい普通の学生は、1990年代の雰囲気を感じる白黒のウェブページよりも、TikTokスタイルの短い動画の方に興味があるんじゃないかな。要するに、Googleは平均的な人にちょうど欲しい結果を出していると思う。HNの少数派が求めているものとは違うかもしれないけどね。
それはクールなプロジェクトだと思うけど、結果はGoogleよりも関連性が低いと感じたよ。
シリングしてくれてありがとう。財務についてだけど、2回目のnlnet助成金が数週間で切れるけど、2029年までフルタイムで働けるだけの資金は確保できてるよ(追加のインフレショックがなければだけど)。運営の部分は今は自己資金で回ってるし、メンテナンスも比較的楽だから、最悪の事態になったら仕事を探さなきゃいけないかも(2029年に仕事がまだあるかは分からないけど、なかったらNGMIの人たちの恥ずかしい段ボール箱に住むことになるかな;-)。
~/.zshrcにあるちょっとしたシェル関数だよ:pages() { for _ in {1..5}; do curl -sSw '%header{location}\n' https://indieblog.page/random | sed 's/.utm.*//'; done } これが出力の例ね: $ pages https://alanpearce.eu/post/scriptura/ https://jmablog.com/post/numberones/ https://www.closingtags.com/blog/home-networking https://www.unsungnovelty.org/gallery/layers/ https://thoughts.uncountable.uk/now/ macOSでは、デフォルトのウェブブラウザでランダムなページを自動的に開くこともできるよ: $ open $(pages) 独立して運営されている個人ウェブサイトを見つけるのにいい場所もあるよ: https://kagi.com/smallweb
それ、素晴らしい自動化だね。
注意点として、Kagiはそのリポジトリをゲートしていて自己提出を許可してないから、他の人が提出したウェブサイトの一部しか見れないよ。Kagiリポジトリを知ってる人だけが提出してるからね。
kagiのsmallwebアプローチに対する一つの反論は、更新頻度の低いサイトを避けることだね。私のお気に入りのブログの中には、あまり更新されないものもあるけど、更新されたときはすごくいい記事が多いんだ。何年も更新されていない素晴らしい新しいブログを見つけると、フィードリーダーに追加するのが楽しみになる。再び更新されたときに読む価値があるっていう良いサインだからね。
明確にするために、最後のブログ投稿から2年未満が基準だよ。
同感だよ。実は、ずっと忘れられていたような古いサイトを探してることもあるんだ。昔の記憶を辿ってるのかもしれないし、何かを深く調べようとしているのかもしれない。検索を改善するには、単に新しさを優先するだけじゃないことがたくさんあるよ。実際、新しさバイアスが検索を悪化させることもあると思う。
これは「小さなウェブ」の具体的な定義で、私が普段考えるものよりもさらに狭いね。でも、Geminiについて読んでいると、元々の罪はクライアントサイドのダイナミズムなのかなって思う。これを言うことができる:それはJavascriptだ。でも、いくつかのJavascriptはDOM上でしか動かない。問題なのは、XHR/fetchやその仲間たちなんだ。CSSは大丈夫だと言えるかもしれない。でも、CSSはリモートリソースを取得できるし、もしJSがなかったら、広告ベンダーがCSSだけのソリューションを持つのにどれくらい時間がかかるか、ちょっと気になるな…もしかしたらもう持ってるかも?
そうだね、CSSはチューリング完全だよ: https://lyra.horse/x86css
「小さなウェブ」での楽しいトレンドは、友達のウェブサイトやウェブリングにリンクする88x31のバッジを使うことだね。私のウェブサイトにもいくつかあるし、そうやってたくさんの小さなウェブのサイトをブラウズできるよ。https://varun.ch (ページの下の方にあるよ) あと、いくつかのディレクトリやネットワーグラフもあるよ。 https://matdoes.dev/buttons https://eightyeightthirty.one/
30年間続いている美しいトレンドだね ;-) 子供の頃の一番幸せな瞬間の一つ(ちょっと大げさだけど)は、毎日訪れていた大好きなウェブサイトに自分のボタンが置かれた時だった。あれは今までで一番のバリデーションだった :)
ジェミニがここで言及されてるのを見るのはクールだね。数年前に、ジェミニの最初の「ソーシャルネットワーク」みたいなものを作ったんだけど、今もまだ動いてるよ:https://martinrue.com/station
Kagi Small Webには約32,000のサイトがあって、英語圏の個人ブログのほとんどをカバーできてると思ってる(毎日約10サイト追加してるし、見つけるのにかなりの努力がかかってる)。最近ではこの小さなウェブの全体のサイズがたったの30,000サイトしかないのはちょっと悲しいね。
これってフレームかiframeを使ってるの? https://kagi.com/smallweb 上のバーに表示されているページへの生のリンクがあると期待してるんだけど、ブックマークできるように。
ルールを破ってるサイトを見かけるんだけど、報告(フラグ)するのって役に立つのかな?それとも単にPRして削除してもらった方がいい?
どんな方法でそれを見つけてるの?自分のは表示されないけど、特定の(すごくニッチな)Google検索用語ではちゃんと出てくるんだ。まだ見つかってないサイトがもっとたくさんある可能性があると思う。
まだ捕まえてない長い尾や氷山がある気がするな。だって、俺はまだ見つかってないし、隠れてるわけじゃない。ただSEOを追いかけてないだけなんだよね。
「個人ブログ」という概念には、技術的なトピックについてランダムな知識を定期的に共有する人も含まれるのかな?それとも、日常生活について書いている人だけなのかな?自分のサイトが含まれているかどうかはどうやって確認すればいいの?
多くの人が同意しないと思うけど、「小さなウェブ」は暗号化を拒否すべきだと思ってる。これはジェミニが進んでいる方向とは逆だよ。暗号化の重要性は否定しないけど、確かに現代のウェブを形作る要素で、安全な支払い、個人情報のプライベートな転送を可能にしてるよね… 何を言いたいか分かる?暗号化を取り除くってことは、金融取引やアカウント、アクセス制限、プライベート情報の交換が現実的にできなくなるってこと。自分が公開したいものだけを制限なしに共有することになる。それは商業的な可能性を大きく制限するし、それがポイントなんだ。技術的にも助けになるよ。マイクロコントローラーのような小さなウェブサーバーを作りたいなら、暗号化が一番難しい部分だからね。それに、TLSは期限切れの証明書が必要で、定期的なメンテナンスが求められるから、サーバーを持って何年も放置するわけにはいかない。シンプルなキャッシングプロキシも復活できるし、接続が悪い時には便利だよ。暗号化がないことで残る2つの問題があって、一つは信頼性。誰でも中間者攻撃をしてウェブページを変更できるけど、TLSがそれを防いでくれる。もう一つの解決策は、コンテンツレベルでやることだと思う:サーバーではなく、コンテンツに署名する、GPG署名みたいに。そうすれば、どこから取得してもコンテンツの信頼性を保証できるよ。もう一つは、抑圧的な政府についてのいつもの議論だけど… まあ、自分を守りたいなら、TLSじゃ助けにならないよ。IPアドレスでバレちゃうし、何を見ているか正確には見えなくても、センシティブなデータを含むサーバーに接続しているだけで証拠になるかもしれない。自分のアイデンティティを守るためには、TORのようなネットワークが必要で、プレーンテキストサーバーをTORネットワークの背後に隠すことができる。それがプライバシーレイヤーとして機能するんだ。
暗号化が必要になった大きな理由は、ISPがウェブページに余計なものを注入し始めたからだと思う。政府はSNIが暗号化されてないから、簡単に追跡できるし。Cloudflareみたいなところが、あなたの接続の80%をMITMしているから、見たものを共有している可能性も高いよね。
> でも、もっといい解決策はコンテンツレベルでやることだと思う。コンテンツに署名する、GPG署名みたいに。実際にはこれがどう機能するの?今のブラウザの状態では無理だよ。ISPがページに自分のコンテンツを挿入できるから、ブラウザは署名と一致しない修正されたコンテンツを読み込んじゃう。現状の技術ではGPG署名の検証を強制するものはないし。ブラウザがGPG署名を検証するようにアップデートされる必要があるなら、それがどれだけ現実的かは分からない。ブラウザはGPG署名を検証して保証することができないし、キーの取り消しや期限切れの問題を解決しない限りは無理だよ。キーの取り消しや期限切れの問題を解決しようとすると、証明書が抱えるのと同じ問題に戻っちゃう。
あなたとサーバーの間にいる誰でも、暗号化されてない接続でページの内容を変更できるよ。暗号化が不要な世界に住みたいけど、残念ながら今はそんな世界は存在しないね。
> 「小さなウェブ」は暗号化を拒否すべきだと思う。これは、ジェミニが進んでいる方向とは逆だね。暗号化は許可すべきだけど、必須にはしない方がいいと思う。 > 暗号化を外すと、金融取引やアカウント、アクセス制限、プライベート情報の交換が現実的にできなくなるよね… 公開したいことだけを制限なく共有することになる。それは商業的な可能性を深刻に制限する。記事には「ジェミニプロトコルは商業的利用がほぼ不可能なくらい制限されている」と書いてあるけど、ジェミニはTLSを使ってるんだよね。(それに、アカウントやアクセス制限は非商業的なものにも使えることがあるから、必ずしも商業的なものだけじゃない。) > 技術的にも助けになるよ。マイクロコントローラーみたいな小さなウェブサーバーを作りたいなら、暗号化が一番難しい部分なんだ。これが、必須にすべきじゃない理由の一つだと思う。(クライアント側もサーバー側も、必須にはするべきじゃない。できるなら両方とも許可すべきだけど、どちらか一方または両方が何らかの理由で暗号化を実装できない(またはしたくない)場合は、必須にはしない方がいい。) > 誰でも中間者攻撃してウェブページを変えられるけど、TLSがそれを防いでくれる。でも、もっといい解決策はコンテンツレベルでやることだと思う。コンテンツに署名する、GPG署名みたいにね。TLSを使うと、スパイ(Cloudflareを除く)がデータを見たり変更したりするのを防げるけど、サーバーの運営者がそうするのを防ぐわけじゃない(特にWWWの標準証明書機関を使っている場合、ドメイン名の再割り当てが起こるかもしれないし、認証にクライアント証明書ではなくクッキーを使っていると、その問題は避けられないかもしれない)。ファイルの暗号署名は特に静的ファイルに役立つし、ミラーリングされていても効果があるから、メリットはあるよ。ただ、これらはTLSを使うことのメリットとは違う。別のケースでは、ファイルが何かをすでに知っていて変わらないなら、暗号ハッシュを使うのが助けになるし、署名は必要ないかもしれない(でもそれも持ってるかもしれない)。ハッシュはファイルを特定するのにも使えるから、特定のサーバーからアクセスする必要はない、他の場所でも利用できるなら。 > まあ、自分を守りたいなら、TLSじゃ助けにならないよ。IPアドレスでバレちゃうから。何を見ているかは正確には見えないかもしれないけど、敏感なデータを含むサーバーに接続しているという事実だけで、十分な証拠になるかもしれない。SNIもあるしね。特定のサーバー実装によっては、偽のSNIがうまくいくこともあるけど、うまくいったとしても、その場合サーバーが正しいデータの証明書を提供しないかもしれない(スコーピオンプロトコルの文書にはこの可能性が書いてあって、どうするかの提案もあるよ)。
> 技術的にも助けになるよ。マイクロコントローラーみたいな小さなウェブサーバーを作りたいなら、暗号化が一番難しい部分なんだ。 > 暗号化がないと、二つの問題が残る。一つは信頼性。誰でも中間者攻撃してウェブページを変えられるけど、TLSがそれを防いでくれる。でも、もっといい解決策はコンテンツレベルでやることだと思う。コンテンツに署名する、GPG署名みたいに、サーバーではなくてね。こうすれば、どこから取得してもコンテンツの信頼性を保証できる。もしマイクロコントローラーがTLSを使えないなら、GPGも使えないだろうけど、平文をサポートする必要があるなら、ポート80でHTTPコンテンツを提供することはできるよ。多くのパッケージ配布はまだHTTPで行われていると思う。編集: すみません、ウェブサーバーの部分を見逃して、マイクロコントローラーを使ったクライアントのことを考えてました。 > さらに、TLSは期限切れの証明書が必要で、定期的なメンテナンスが求められる。サーバーを持っていても、何年もそのまま放置するわけにはいかない。簡単なキャッシングプロキシも復活させることができて、接続が悪い時には便利だよね。そう、TLSとDNSは完全に分散したインターネットにとって二大障害だよ。もちろん、その道を進むとIPFSになるけど、俺にはクールに聞こえるけど、実際にはあまり普及してないみたい。
暗号化を外すと、金融取引やアカウント、アクセス制限、プライベート情報の交換が現実的にできなくなるよね… 公開したいことだけを制限なく共有することになる。それは商業的な可能性を深刻に制限する。それでも人々は暗号化されていないウェブで金融取引を行うだろう。なぜなら、利便性がリスクを上回るから。暗号化を外すことは、リスクが高いことを保証するだけなんだ。
誰か、castorを始めるのに最適な場所を教えてくれない?22.04のインストールで依存関係が満たせなくてインストールできないんだ...
コメントでマネタイズに反対する意見をたくさん見たけど、俺たちがマネタイズに対して抱くイメージが、ビッグウェブの搾取的で、ダークパターンや悪いインセンティブで満ちているからだと思う。でも、そんな風である必要はない。小さなウェブも持続可能なマネタイズについて考えられるんだ。実際、https://indieweb.org/business-models にそのためのページがあるよ。「出版社」がお金をもらうことを目指すのは悪いことじゃない。