TimeCapsuleLLM: 1800年から1875年までのデータのみで訓練されたLLM
95日前原文(github.com)
概要
TimeCapsule LLMは、特定の時代・地域のデータのみで訓練された言語モデル
現代のバイアスを排除し、当時の語彙や世界観を忠実に再現
複数バージョンが存在し、段階的に精度や表現力が向上
Selective Temporal Trainingという独自手法を採用
主な用途は歴史的言語再現や時代考証
TimeCapsule LLMとは
- TimeCapsule LLM:特定の時代(例:1800~1875年ロンドン)のデータのみで訓練された言語モデル
- 現代的な知識やバイアスを排除し、当時の語彙・文体・世界観を再現
- 歴史的再現性を重視し、単なる「歴史風」ではなく「本当にその時代のAI」を目指す
- **nanoGPT(Andrej Karpathy作)やPhi 1.5(Microsoft)**などの基盤技術を活用
- Hugging Faceで一部モデルやデータセットが公開
バージョンごとの特徴
- v0
- 約187MBのデータで訓練
- 1800年代風の語彙・文体を再現
- 文法や内容はほぼ一貫性なし、現代的な概念は出現しない
- v0.5
- データ量約435MBに増加
- ヴィクトリア朝風の文章・句読点、より正確な文法
- **事実誤認(ハルシネーション)**やOCRノイズが多い
- v1
- 約6.25GBのデータで訓練
- 実在の歴史的出来事と人物の関連付けが可能に
- より自然で時代に即した出力
- v2mini-eval1 / v2mini-eval2
- 15GBサンプル(v2の90GBデータセットから抽出)で訓練
- トークナイザーの問題により意味不明な出力が発生することも
- より大規模なデータセットによる精度向上を目指す
データセットと収集方法
- 主なデータソース:1800~1875年ロンドンの書籍・法律文書・新聞など
- データセットサイズ
- v0:約187MB
- v0.5:約435MB
- v1:約6.25GB
- v2mini-eval1:15GB
- v2(予定):90GB(未トークナイズ)
- データクリーニング
- Project Gutenbergなどのヘッダー・フッターや現代的注釈、OCRエラーの除去
- スクリプトまたは手作業での整理
モデル構築手順
- Step 1:歴史テキスト収集
- 公的ドメインの.txtファイルを収集し、時代・地域を限定
- Step 2:カスタムトークナイザー構築
- train_tokenizer.pyやtrain_tokenizer_hf.pyで語彙・マージルール(vocab.json/merges.txt)生成
- Step 3:モデル訓練
- nanoGPTや選択したアーキテクチャの手順に従い訓練
Selective Temporal Training(STT)とは
- 特定の時代・地域に限定したデータのみで訓練する手法
- 現代的情報やバイアスを完全排除し、その時代特有の知識・言語を再現
- 例:1800~1875年ロンドンの文献のみで訓練したv0.5
- **ファインチューニングやLoRAでは不可能な「純粋な時代性」**の実現
モデルサイズ・訓練環境
- v0:16Mパラメータ、Geforce rtx 4060/i5-13400F/16GB DDR5
- v0.5:123Mパラメータ、同上
- v1:700Mパラメータ、A100 SXM(レンタル)
- v2mini-eval1:300Mパラメータ、A100 SXM(レンタル)
よくある質問(FAQ)
- なぜファインチューニングやLoRAを使わないのか?
- 既存モデルは既に現代的知識を含むため、「完全な時代再現」は困難
- スクラッチからの訓練でのみ「時代そのもののAI」実現が可能
- どんなデータを使ったか?
- 書籍、法律文書、新聞、その他1800~1875年ロンドンの文書
- 初回訓練では50ファイル(約187MB)を使用
- 目標
- 1800~1875年ロンドンの知識・言語のみで推論できるAIの構築
参考リンク
- データセットサンプル
https://huggingface.co/datasets/haykgrigorian/TimeCapsuleLLM-London-1800-1875-v2-15GB - 使用文書リスト
https://github.com/haykgrigo3/TimeCapsuleLLM/blob/main/Copy%20of%20London%20Documents%20for%20Time%20Capsule%20LLM.txt
今後の展望
- 90GB規模のデータセットでの本格訓練による精度向上
- 時代・地域ごとのカスタムAI構築や、歴史研究・時代考証への応用
- バイアスレポートや出力例の充実による透明性向上