ハクソク

世界を動かす技術を、日本語で。

TimeCapsuleLLM: 1800年から1875年までのデータのみで訓練されたLLM

概要

TimeCapsule LLMは、特定の時代・地域のデータのみで訓練された言語モデル
現代のバイアスを排除し、当時の語彙や世界観を忠実に再現
複数バージョンが存在し、段階的に精度や表現力が向上
Selective Temporal Trainingという独自手法を採用
主な用途は歴史的言語再現や時代考証

TimeCapsule LLMとは

  • TimeCapsule LLM:特定の時代(例:1800~1875年ロンドン)のデータのみで訓練された言語モデル
  • 現代的な知識やバイアスを排除し、当時の語彙・文体・世界観を再現
  • 歴史的再現性を重視し、単なる「歴史風」ではなく「本当にその時代のAI」を目指す
  • **nanoGPT(Andrej Karpathy作)やPhi 1.5(Microsoft)**などの基盤技術を活用
  • Hugging Faceで一部モデルやデータセットが公開

バージョンごとの特徴

  • v0
    • 約187MBのデータで訓練
    • 1800年代風の語彙・文体を再現
    • 文法や内容はほぼ一貫性なし、現代的な概念は出現しない
  • v0.5
    • データ量約435MBに増加
    • ヴィクトリア朝風の文章・句読点、より正確な文法
    • **事実誤認(ハルシネーション)**やOCRノイズが多い
  • v1
    • 約6.25GBのデータで訓練
    • 実在の歴史的出来事と人物の関連付けが可能に
    • より自然で時代に即した出力
  • v2mini-eval1 / v2mini-eval2
    • 15GBサンプル(v2の90GBデータセットから抽出)で訓練
    • トークナイザーの問題により意味不明な出力が発生することも
    • より大規模なデータセットによる精度向上を目指す

データセットと収集方法

  • 主なデータソース:1800~1875年ロンドンの書籍・法律文書・新聞など
  • データセットサイズ
    • v0:約187MB
    • v0.5:約435MB
    • v1:約6.25GB
    • v2mini-eval1:15GB
    • v2(予定):90GB(未トークナイズ)
  • データクリーニング
    • Project Gutenbergなどのヘッダー・フッターや現代的注釈、OCRエラーの除去
    • スクリプトまたは手作業での整理

モデル構築手順

  • Step 1:歴史テキスト収集
    • 公的ドメインの.txtファイルを収集し、時代・地域を限定
  • Step 2:カスタムトークナイザー構築
    • train_tokenizer.pyやtrain_tokenizer_hf.pyで語彙・マージルール(vocab.json/merges.txt)生成
  • Step 3:モデル訓練
    • nanoGPTや選択したアーキテクチャの手順に従い訓練

Selective Temporal Training(STT)とは

  • 特定の時代・地域に限定したデータのみで訓練する手法
  • 現代的情報やバイアスを完全排除し、その時代特有の知識・言語を再現
  • 例:1800~1875年ロンドンの文献のみで訓練したv0.5
  • **ファインチューニングやLoRAでは不可能な「純粋な時代性」**の実現

モデルサイズ・訓練環境

  • v0:16Mパラメータ、Geforce rtx 4060/i5-13400F/16GB DDR5
  • v0.5:123Mパラメータ、同上
  • v1:700Mパラメータ、A100 SXM(レンタル)
  • v2mini-eval1:300Mパラメータ、A100 SXM(レンタル)

よくある質問(FAQ)

  • なぜファインチューニングやLoRAを使わないのか?
    • 既存モデルは既に現代的知識を含むため、「完全な時代再現」は困難
    • スクラッチからの訓練でのみ「時代そのもののAI」実現が可能
  • どんなデータを使ったか?
    • 書籍、法律文書、新聞、その他1800~1875年ロンドンの文書
    • 初回訓練では50ファイル(約187MB)を使用
  • 目標
    • 1800~1875年ロンドンの知識・言語のみで推論できるAIの構築

参考リンク

  • データセットサンプル
    https://huggingface.co/datasets/haykgrigorian/TimeCapsuleLLM-London-1800-1875-v2-15GB
  • 使用文書リスト
    https://github.com/haykgrigo3/TimeCapsuleLLM/blob/main/Copy%20of%20London%20Documents%20for%20Time%20Capsule%20LLM.txt

今後の展望

  • 90GB規模のデータセットでの本格訓練による精度向上
  • 時代・地域ごとのカスタムAI構築や、歴史研究・時代考証への応用
  • バイアスレポートや出力例の充実による透明性向上

Hackerたちの意見

1900年までのデータで最先端のモデルを訓練して、量子力学や相対性理論についてちょっとした文脈を加えて質問するのは面白そうだね。もしそのモデルが何かしら正しいことを言えたら、LLMがもっと大きなものへの道だっていう強い証拠になるかも。逆に、何も出てこなかったら、また一から考え直す時期かもね。
それ、私も気になってた。トレーニングセットにどれくらいのSTEM素材が含まれてるのか、気になるなぁ。
最先端のモデルに使われるトレーニングデータの大部分は、1900年以降に作られたんじゃないかな。
トレーニングデータを見てると、あまり何も知らないんじゃないかな。[0] 「物理科学の接続についての疑念」(1834年)には、量子力学についてあまり書かれてないと思う。カットオフが1900年だけど、テキストの多くは1900年より1800年に近い感じだね。[0] https://github.com/haykgrigo3/TimeCapsuleLLM/blob/main/Copy%...
数週間前にやったよ: https://github.com/DGoettlich/history-llms (ここで話題にされてる: https://news.ycombinator.com/item?id=46319826)モデル部分はね。君と同じことを考えた人は他にもいるけど、試した人はいないと思うよ。
そこには、すでに量子力学や相対性理論に近いものがあったはずだよ。マイケルソン・モーレーの実験は1887年で、ローレンツ変換は1889年に登場した。光電効果(アインシュタインが1905年に光子の観点から説明したやつ)も1887年に発見された。ウィリアム・クリフォード(1889年に亡くなった)は、一般相対性理論を予見するような考えを持っていた。「リーマン、そしてより具体的にはクリフォードは、力と物質が空間の曲率における局所的な不規則性かもしれないと推測した。彼らはその点で驚くべき予言者だったが、そのために当時は夢想家として片付けられた。」- バネシュ・ホフマン(1973年)物事は突然起こるわけじゃないし、その時代の科学論文をすべて見ることができれば、そういったものが合成から外れてしまった可能性もあるね。
ヤン・ルカンが最近このアイデアについて明言していて、彼はそのシナリオではLLMが何も有用なことを加えられないと断言してる。私の理解では、他のAI研究者たちも彼に概ね同意してるみたいで、実際に「魔法」のようなものが重みの中にあると思ってるのは、オルトマンみたいなハイプ好きな連中だけだよね。彼らの利益がかかってるから、理解できるけど。私の意見としては、ルカンが正しいと思う。
化学は探求するには素晴らしい分野だね。19世紀の最後の四半期には化学の進展がたくさんあったから、LLMが有益な仮説を提案したり、熱力学の科学について予測を立てたりできるか見てみたい。
テキストの未来を予測するための厳密なアプローチがLiらによって提案されたんだ。2024年の「Evaluating Large Language Models for Generalization and Robustness via Data Compression」(https://ar5iv.labs.arxiv.org/html//2402.00861)ってやつで、もっと評価されるべきだと思う。彼らは未来のウィキペディア、ニュース記事、コード、arXivの論文、マルチモーダルデータに対して圧縮(パープレキシティ)を測定してる。データ圧縮はロバスト性と一般化に密接に関連してるんだよね。
これを使ってプロンプトを流す簡単な方法、誰か見つけた?ホスティングされたAPIやチャットUI、Ollamaやllama.cpp、LM Studioで動く便利なGGMLやMLXビルドとか。
+1
直接的な答えではないけど、v0.5はnanoGPTアーキテクチャで、v1はPhi 1.5アーキテクチャみたい。どのエンジンでも量子化ユーティリティにしっかり対応してるはずだよ。それに、サイズも小さいから、ポテトでも動かせると思う。
アダプタライブラリの使い方、完全に忘れちゃったな。シンプルな推論スクリプトがあれば助かるんだけど。
今、LM Studioを使って動かしてるんだけど、Hugging Faceからダウンロードできるんだ。でも、生成されるテキストはめちゃくちゃだよね。=== あなた: お願いします、マスター・ニュートンって誰ですか? timecapsulellm-v2-1800-1875-mlx: 前と同じ料金を払うよ。あなたのマスターがその手紙を届けることはできなかったんだ。彼はやったけどね。約束を守れるようになったらすぐに行くよ。手紙が送られたかどうかは全然はっきりしないんだ。でも、書いたのはその手紙を渡した人だってことは明らかだよ。「いいえ」と言った。「あなたに渡すことはできません。」そこで、その手紙が私に送られた。「その手紙はあなたのものだと思います」と言った。「でも、お願いだから、私に渡すのを拒まないでくれる?」
これって、LLMがAGIにつながる可能性を示す実験になるかも?それとも、少なくとも今の私たちの知能を超える知能に?もし年Xまでのテキストや情報、概念しか与えられなかったら、発見Yのずっと前に、果たしてその発見にたどり着けるか見てみたいよね。
そう思わないな。古いデータの量が、最先端のモデルを訓練するには全然足りないから。LLMのアーキテクチャの基本を変えない限りはね。
> これは、LLMがAGI、あるいは少なくとも現在の知能を超える知能に至る可能性を示す実験になるのかな?AGIの意味を具体的にしないといけないね。3つの文字は人によって違う意味を持つし、時にはその全体が文字にない意味を持つこともあるから。 > もし、年Xまでのテキストや情報、概念しか与えられなかったら、発見Yのずっと前に、そこからその発見に至るように促せるか見てみることはできるかな?ある程度はできるかもね。既存のアイデアを組み合わせて、その意味を考えることで新しい発展が生まれることもあるし。他のこと、例えば相対性理論や量子力学に関することは、実験が必要だっただろうね。このカットオフ日以前に関連する実験が行われたかは確信がないけど、たぶんやってないと思う。そういうLLMが一般相対性理論の数学や幾何学を発展させることができても、AIが「水星の近日点移動は惑星バルカンの兆候だ」って言うかもしれないね。 https://en.wikipedia.org/wiki/Vulcan_(hypothetical_planet)
この二つの概念が同じだとは思えないな。LLMには知能も問題解決能力もないし(だから、誰かのAIがただのチャットボットを知覚があるかのように見せかけるために定義を緩めるつもりはないよ)。せいぜい、複数の分野や国を超えた知識の共有が新しいアイデアにつながることを示すだけだと思う。
これは面白い実験になると思う。でも、実質的にはGPT-5.2相当のものを訓練する必要があるね。だから、たくさんのテキストと、nanoGPTやPhi-1.5に比べてはるかに大きなパラメータが必要だし、1800年代の監視付きファインチューニングや人間のフィードバックを使った強化学習も必要だね。
これは魅力的だけど、その実験は当時の知識がデータとしてどれだけあるかを今と比較するには公平じゃない気がする。思考実験としてはワクワクするけどね。
もちろん!テックリーダーたちがLLMの素晴らしさを語ってるのに、この特定のテスト方法を使わないのは本当に腹立たしい。トレーニングやファインチューニングに使われるデータセットの透明性や標準化がほとんどないのは残念すぎる。これが広告されれば、もっと面白くて有益なベンチマークができるはず。常にベンチマークを「破っている」OEMモデルは、改善されたデータセットと方法でそうしてるからね。データセットを固定しない限り、ベンチマークの進捗はかなり怪しいと思う。
これはLLMが革新できるのか、ただの再生産なのかの真のテストになるだろうね。人々がLLMに驚く理由の一部は、彼らがどれだけ知らないかを理解していないからだと思う。だから、思考と記憶はエンドユーザーには同じに見えるんだよね。
モデルに情報を漏らしていないことを証明するのは難しいだろうね。LLMの大きな落とし穴は、大量のデータコーパスでトレーニングすることだから、「Xはこのコーパスには含まれていない」とか「このコーパスにはYしか含まれていない」と言うのが難しい。特定の日付以前のテキストだけを含むトレーニングデータセットを組み立てようとしても、確実にするのはめちゃくちゃ難しい。モデルにデータが漏れる可能性として思いつくのは、誤ってファイリングされた文書や誤ラベルの文書、脚注、注釈、文書のメタデータとかだね。
数週間前に非常に似たモデル(Qwen3ベース)についての議論があったよね。https://news.ycombinator.com/item?id=46319826 その時期にトレーニングされたモデルが、自分自身の文脈や理解がまったく欠けているのが特に考えさせられたんだけど、でも考えてみれば、私たちも同じなんだよね(少なくとも今のところは)。
面白いアイデアだね。最近HNに別の「時間制限付き」LLMプロジェクトが登場したよ。[1] 彼らのモデル出力は本当に洗練されてるけど、チームは悪用や目標の誤解を避ける方法を模索してる。100年以上前の誰かと話すのはクールだと思うけど、それがどれだけクールじゃないかを真剣に考えたことはない。面白い時代だね![1] https://news.ycombinator.com/item?id=46319826
もし、1800-1875年と1800-2025年のデータで同じ方法でトレーニングされた2つのモデルがあったとしたら。両方のモデルを実行すると、トークンに対する確率分布が得られる。これを1875'と2025'と呼ぼう。さらに、確率分布の有限差(2025' - 1875')も得られる。もし、1.1*(2025' - 1875') + 1875'からサンプリングしたら、何が得られるだろう?これが2040'の良い近似になるとは思わないけど、試してみるのは面白い実験になるだろうね。(外挿よりも補間の方が役に立たないと思うし、面白くもなさそうだけど、私には何が分かるっていうんだ。)
すごい!俺もこんなのやったことあるよ: https://github.com/hallvardnmbu/transformer でも、いろんなデータを使ったんだ(つまり、ソースごとに別々のモデル):聖書、ドン・キホーテ、フランツ・カフカとかね。(それと、(ひどい!)歌詞ジェネレーターと翻訳機も。)
もしこれの出力が少しでもまともなら、大量の著作権作品がLLMの訓練に必要だっていう主張は否定されるはずなんだけど、残念ながらここではそうじゃないみたい。
The Common Pile v0.1を見てみて:パブリックドメインとオープンライセンスのテキストの8TBデータセット(https://arxiv.org/pdf/2506.05209)。彼らはオープンライセンスのデータだけを使って、合理的な7Bパラメータモデルを構築してるよ。
うーん。『Who art Henry』が19世紀の言葉だと思ってる人の歴史的専門知識にはちょっと疑問を感じるな。(実際、どの世紀の文法的にも正しくない英語だし、「art」は二人称単数だから、「who are Henry?」って言ってるようなもんだよ。)
17世紀、18世紀、19世紀のクリスチャンの本をたくさん読んでる俺も、まさに同じことを思った。
もう少し詳しく教えてくれる?READMEをざっと読んだ限りでは、「Who art Henry」がプロンプトだってことは分かったけど、19世紀の正しいプロンプトは何になるの?
特定の日付のカットオフでデータを使ってLLMを訓練し、その後LLM同士の比較分析をするのは面白そうだね。