ハクソク

世界を動かす技術を、日本語で。

Britannica11.org – 1911年版『エンサイクロペディア・ブリタニカ』の構造化版

Hackerたちの意見

1911年版のエンサイクロペディア・ブリタニカを、クリーンで構造化されたナビゲートしやすいサイトに再構築しました: https://britannica11.org/ 具体的には: – 約37,000の記事を元の巻から再構築 – セクションレベルの構造(記事内の目次がクリック可能) – クロスリファレンスを抽出してリンク – 貢献者をインデックス化して検索可能に – 元の巻とページの参照を保持し、読んでいる間に表示 – 各ページの元のスキャンへのリンク – 付随資料(前書き、略語など)を含む – トピックインデックスを再現し、クロスリンク – 記事のメタデータ(長さ、巻など)を含む全文検索 ほとんどの作業は、見出しや複数ページの記事、表、数学、言語、脚注、図版、そしてこのような作品に出てくる小さな特殊ケースの解析と再構築にありました。目指したのは、元のものに近いけど実際に使えるものを作ることです。特にフィードバックをもらいたいのは: – 検索の質 – ナビゲーション(セクション、クロスリファレンス) – 構造的におかしく見えるもの もし質問があれば、パイプラインやデータモデルについてお答えしますよ。
これをシェアしてくれてありがとう。すごく素晴らしいですね。いくつか質問があるんですが、いいですか? これはどのライセンスで公開される予定ですか? ダウンロードする方法はありますか? 誰かがダウンロードしたい理由は、トレーニングデータとして使うためです。
法的な用語についても質問があります。いくつかの主要な世界経済は、データセットや出版権に関して非常に異なるルールの下で運営されています。私はアメリカのカリフォルニアにいるんですが、私が巨大な資金力のあるFAANGではなく、ただの本好きな人間なので、私向けの条件はあるのでしょうか? 「小規模ビジネス」向けの商業利用の条件はどうなりますか?
「エンサイクロペディア・ブリタニカのリーダーズガイド」を追加したらいいかも。パブリックドメインのテキストがここにあるよ:https://www.gutenberg.org/ebooks/74039、スキャンはここ:https://archive.org/details/readersguidetoen00londuoft - トピックベースのインデックスを含む補助資料と自然に合うと思うよ。
いい感じだね。実は、最近あまりやらないけど、いくつかのトピックをブラウジングするのに少し時間を使ったよ!いくつか気になったことがあるんだけど…記事をクリックして新しいトピックにジャンプしようとすると、上の検索ボックス(「タイトルと全文を検索...」って書いてあるやつ)が機能しないんだ。あと、最初にサイトに来たときはちょっと困ったな。ブラウジングを始めるには「記事」や「トピック」をクリックしなきゃいけないって気づくのに時間がかかった。なんでだろう、画像をクリックしたらサイトに入れると思ってたのかな…?
いい仕事だね。他の記事に言及されているトピックについて、ウィキペディア風のリンクをどうかな?
ちょっとしたバグ報告ですが、選んだフォントが℔をサポートしていないため、記事が変に見えます。例えば、https://britannica11.org/article/22-0688-s2/putting_the_shot みたいな感じです。℔をもっと普通の(最近の)lbに書き換えた方がいいかも?
良い指摘ですね、ありがとう。これはフォントのカバレッジの問題です。欠けているグリフのためにフォールバックフォントを使うか、そういうケースを正規化します。これ、見た目は些細なことに聞こえるかもしれませんが、このプロジェクトにはそういうアイテムがたくさんあります。
2021年版のエンカータやブリタニカのコピーを見つけられるかどうか、ずっと考えていました。LLM前、COVID後、AIが情報を汚染する前に期待できる最良のものかもしれません。子供の頃の大切な宝物の一つは、CD-ROMベースの百科事典(インターネットが一般的になるずっと前)でした。なぜそんなに好きだったのかは分かりませんが、雨の日の午後にお気に入りの記事を開いて、もっと学んでいました。
その気持ち、よくわかります。私もCD-ROM百科事典で同じ体験をしました。記事をブラウジングして落ち込むような感覚は再現するのが難しいですよね。ここでの動機の一部は、そういう探索を取り戻すことでしたが、元の1911年のテキストと構造を使って。
2004: https://archive.org/details/britannica-2004 2009: https://archive.org/details/britannica-multimedia-dvd-2009-d... 2012: https://archive.org/details/britannica-dvd_20230709 2013: https://archive.org/details/encyclopedia-britannica-dvd-2013
エンカータの最終リリースは2009年だったよ。
本当にすごいですね。脱帽です。これのもっと限定的な形を試みようと考えていたことがあります。1911年版のブリタニカは、いくつかの理由で称賛され(残念な理由で批判もされていますが)、最もよく知られているのは、第一次世界大戦前の最後の百科事典だったことです。そのため、第一次と第二次の産業革命や「進歩時代」からの楽観的な雰囲気がたくさん詰まっています。「全ての戦争を終わらせる戦争」という考えがまだ浸透していない時期です。具体的にhttps://britannica11.orgを試してみたところ、ランダムに選んだ「ポルトガル東アフリカ」の記事をすぐに見つけて表示してくれました: https://britannica11.org/article/22-0177-portuguese-east-afr... ここでのアイデアとして、もし可能なら、各セクションのテキストをページ画像と並べて表示するオプションがあればいいなと思います。そうすれば、OCRの正確さを「確認」したり、美しい印刷を同時に見ることができるんです。各ページを別々に開いて画像やウィンドウを管理する必要がなくなります。おそらく、サイトを使って記事に飛び、主に画像として読むと思いますが、何かを確認したり、きれいにコピー&ペーストするためにテキスト形式に切り替えることもあるでしょう。(最初は、元の画像が利用可能だと読んだと思ったのですが、サイドリンクを見つけるのに3回もページを訪れなければなりませんでした。)サムネイルが目立たせるための中間的なオプションになるかもしれません(これもオプションで)。本当に素晴らしい出来です。そして、速いですね!
ありがとう!すごく感謝してるし、ランダムな記事でうまくいったのは嬉しいな。いい提案だね。テキストとページビューを並べて表示できたら、まさに君が言ってる理由(テキストの確認と元のレイアウトを見るため)でめっちゃ便利だと思う。まだそれは作ってないけど、考えたことはあるよ。それに、スキャンへのリンクがすぐには分からなかったっていうのも参考になるね。もうちょっと分かりやすくした方がいいかも。これも分からないかもしれないけど、左のマージンにある vol:page のリンクをクリックすると、読んでるページのスキャンに直接飛べるよ。改めてありがとう!
> でも、ページの画像とテキストを並べて見るオプション(オプションに強調)をぜひ欲しいな。... そうすれば、OCRの正確さを「確認」したり「ファクトチェック」したりできるから。ウィキソースではもうできるよ。例えば、「分子」に関するエントリーの658ページはこちら:https://en.wikisource.org/wiki/Page:EB1911_-_Volume_18.djvu/... それとOP:あなたのバージョン(https://britannica11.org/article/18-0684-s2/molecule)でいくつかの忠実度の問題に気づいたよ。例えば、「他の種類の分子」の行で終わる数式の一部が欠けてる([1]と比較してみて)。それに、あなたのバージョンではこの論文の脚注1が「彼らがいつもやってきたように」に付いてるけど、実際には654ページの「原子」に付いてるべきだよ([4]を参照): [1] https://britannica11.org/article/18-0684-s2/molecule#:~:text... [2] https://en.wikisource.org/wiki/Page:EB1911_-_Volume_18.djvu/... [3] https://britannica11.org/article/18-0684-s2/molecule#:~:text... [4] https://en.wikisource.org/wiki/Page:EB1911_-_Volume_18.djvu/...
すごくいいね!いくつかバグに気づいたんだけど、チューリッヒを検索すると、チューリッヒ州の記事に行っちゃうんだよね。この記事の中にある「チューリッヒ(市)」のリンクをクリックすると、また同じ州の記事が開いちゃって、実際の市の記事には行かないんだ。記事を見てるときに、記事検索(左端の検索ボックス)が全然機能しないんだけど(Firefoxで)、メインページにいるときはちゃんと動く。右側に小さな「ホーム」ボタンがあるけど、他のサイトの使い方の筋肉記憶から、左上の大きなタイトル「エンサイクロペディア・ブリタニカ、第11版」をクリックするとホームに戻ると思っちゃうんだよね。
いいポイントだね。確かにチューリッヒの記事は2つあるよ。市に行く方法の一つは、チューリッヒを検索して2つ目のリンクを開くことだね。チューリッヒ(州)の xref は確かに曖昧さ回避のバグだね(同じ名前の記事があるから)。それを見つけてくれてありがとう。Firefoxのアーティクルビューワーで記事検索ボックスは試してないけど、調べてみるよ。タイトルをリンクにするのはいいアイデアだし、すぐに実装する予定だよ。これらを見つけてくれてありがとう!
現代のテキストと比べて、記事のトーンや構成が全然違うのが面白いよね。コペンハーゲンについての記事を例に取ると、https://britannica11.org/article/07-0111-copenhagen/copenhag... 地理や主要な観光ポイントはすごく正確に描写されてるけど、著者たちは感情的な形容詞や、興味深いと思うことについての個人的な意見を挿入するのをためらわないんだ。また、下の方にあるコペンハーゲンの戦いについての大部分は、地理的な説明から海戦の詳細なナレーションにジャンプしてて、完全にジャンルが変わってる。
そう、それが一番好きなところの一つなんだ。記事には個人的なトーンがあって、均一化されてないからね。地理や歴史、時にはかなり意見が入った説明が一つの場所に混ざってるから、読みやすくなると思う。私のこのバージョンへの導入部分では、これについてや関連することを話してるよ。https://britannica11.org/about.html
今日では衝撃的な信念を発見することができるよ。例えば、「思春期」についての記事からのこの抜粋:「女の子の場合、最初の12年くらいは兄弟と一緒に走ったり、跳んだり、登ったりさせるべきだ。しかし思春期が近づくにつれて、すべての変化、ストレス、負担に応じて、彼女たちの生活は適切に修正されるべきだ。生理の期間中は休息を強制し、他の時には穏やかで段階的な運動を行うべきだ。同様に、すべての精神的な負担も減らすべきだ。この時期に女の子の知的教育にプレッシャーをかけるのではなく(これはよくあることだけど)、学校や本に費やす時間を減らすべきだ。教育はもっと広範で基本的なラインで行われるべきで、たくさんの時間を屋外で過ごすべきだ。」
確かにそうだね。1911年版が面白いのは、その理由の一つだよ。著者たちが自分の意見を表現する自由があって、それが当時の流行を自然に反映しているんだ。
今は、ほぼすべてのパブリックドメインのテキストを、KimiやGLMのような最新のLLMに貼り付ければ、現代の言葉で内容をうまくまとめてくれるよ。すごく便利だね。LLMはフォーマットにこだわりすぎる傾向があるから、歴史的な出版物の壁のようなテキストフォーマットといいバランスが取れるんだ。昔の出版物は紙を節約して手動のレイアウト作業を最小限にするためにそうなってたからね。そして、今の時代では絶対に受け入れられないような歴史的なテキストの内容についても教えてくれるよ。(時々、「このテキストは今どう受け取られるだろう?」みたいに促してあげる必要があるけど、そうするとかなり詳しく答えてくれるよ。)
書くのは衝撃的だけど、これを神聖視するのもね。多くの人がそれを実践しているし、逆のことにエネルギーを注いでいた女性運動も、選択肢のために戦っていたことを指摘するようになったんだ。労働力に入らない選択肢も含めてね。「ソフトライフ」の選択肢はすごく人気があって、時代を超えている。人々はただ新しい言い方を必要としていただけなんだ。もし男性が他の誰かに補助されることが文化的に支持されていたら、多くの男性もその役割を受け入れるだろうね。これは信頼できる選択肢ではなく、珍しいことなんだ。もし一般的になれば、他の分野での代表性の不均衡を皮肉にも解決することになるだろうね。なぜなら、十分な数の男性が自分から去るから。まだまだ「女性のための火サイドチャット」には啓蒙が足りないよね、世界中の業界会議で。
情報がどんな風に構成されているのか気になるな。最近、デジタル人文学の人たちがこのような作品の意味的マークアップにXML-TEIフォーマットを使っていることを知ったんだ。最近、XML-TEIでエンコードされたラテン語-英語のルイス&ショート辞書を探求してる。BaseXやXQueryを使って、「全体のコーパスに一度だけ現れる単語(ハパックス・レゴメナ)を書いた古典作家は誰か?」とか「最も長いハパックスは何か?」(たいてい面白いもの)みたいな質問をするのがすごく楽しい。タフツ大学に感謝!1911年のブリタニカをBaseXに読み込んで、XQueryを通じてどんな面白いことが学べるか見てみたいな!
中身はXML-TEIじゃなくて、リレーショナルデータパイプラインのアプローチなんだ。記事の境界やセクション、寄稿者、クロスリファレンス、ソースページの由来が構造化されたレコードに再構築されてる。テキスト自体はパブリックドメインだけど、まだ一括構造エクスポートは公開してないんだ。データセットへのアクセスを求める声がこのスレッドのテーマの一つになってるのは確か。真剣に考えてるよ。もし公開することになったら、構造を保った形で、ただのプレーンテキストをダンプするようなことはしたくないな。
小さな世界だね。今、EB第9版のスキャンを整理して、メディアウィキサイトにアップしようとしてるんだ。イラストや版画も全部含めるから、まだ全体の3分の1くらいしか終わってないよ。いろんなOCRツールを試してるけど、今のところ一番感心してるのはpaddleOCRだね。テキストのカラムを正しく分けて、イラストにラベルを付けて、マージンのテキストもちゃんと記録してくれた。ただ、完璧ではないから、一部の表は手作業で修正してる。ソースページもオンラインにする予定だから、スキャンしたページと電子テキストを切り替えられるようにするつもりだよ。
知らない人のために言うと、1875年の第9版は多くの著名な人々が寄稿したため、学者版として知られていたんだ。19世紀後半の興味深いスナップショットだよ。他にも、ハイパーリンク付きでインデックス化された形式でオンラインにすると面白い資料には、地理や医学のアトラス、バイデカーの旅行ガイドなんかがあるね。
楽しみにしてるよ。第9版も素晴らしいし、その多くが第11版にも含まれてるからね。アルフレッド・ニュートンのほぼ200の鳥類種に関する記事や、マカウレーのいくつかの古典的なエッセイが思い浮かぶよ。
みんなにお知らせしたいんだけど、記事からの検索が今はちゃんと動いてるよ。パスの問題だったんだ。ごめんね。