ハクソク

世界を動かす技術を、日本語で。

Talkie: 1930年製の13Bヴィンテージ言語モデル

概要

  • vintage language models(ヴィンテージ言語モデル)は、過去のテキストのみで訓練されたAI
  • 現代のAIと比較し、知識の限界や一般化能力を研究
  • talkie-1930-13bは、1930年以前の英語テキストで訓練された13Bパラメータモデル
  • データ品質や時代的リークなど独自の課題に直面
  • 今後は多言語化やモデル拡張を計画

ヴィンテージ言語モデルとは何か

  • vintage language modelsは、特定の時代以前のテキストのみで訓練されたAIモデル
  • タイムマシンのように、過去の人物と対話する体験のシミュレーション
  • 現代知識や価値観の影響を排除し、歴史的視点のAIを実現
  • 例:talkie-1930-13bは1930年以前の英語のみで訓練
  • 過去の文化や考え方を反映した独自の会話パートナーとしての役割

なぜヴィンテージモデルを研究するのか

  • AIの一般化能力や知識の限界を検証するための実験環境
  • 未来予測や、当時発明されていないアイデアの発見能力を評価
    • 例:General Relativityの再発見可能性
  • モダンモデルとの比較で、データ多様性や訓練コーパスの影響を分析
  • Web依存の現代AIとは異なる知識体系の構築

未来予測と新規発明能力の評価

  • New York Timesの「On This Day」データで未来イベントの予測困難度を測定
    • 1931年以降の出来事は、モデルにとって「驚き」が大きい傾向
  • 特許や科学論文(例:Turing machine, ヘリコプター特許)を知識カットオフ後に当てられるか検証
  • Calcifer Computingの研究を参考に、モデルサイズと予測精度の関係を調査
  • HumanEvalテストで、現代プログラミング言語(Python)への適応力も測定

プログラミング能力の実験

  • pre-1931モデルと現代モデルで同一構造のペアを用意し、Pythonコーディング能力を比較
  • ヴィンテージモデルは単純なタスク(例:加算、簡単な暗号解読)に限定的な成功
  • Webデータを訓練に含むモデルには大きく劣るが、規模拡大で徐々に向上
  • 正解プログラムはほぼ一行・例題の小改変に留まる

データ収集と品質管理

  • Internet ArchiveInstitutional Data Initiativeから1930年以前の膨大な英語データを収集
  • 書籍、新聞、雑誌、学術誌、特許、判例法など多様なソース
  • 英語中心だが、今後は多言語化も目指す
  • **OCR(光学文字認識)**によるノイズ混入が課題
    • 人手転記の学習効率はOCRの約3倍
    • 正規表現によるクリーニングで部分的に改善

時代的リークとその対策

  • 知識カットオフ後の情報混入(リーク)を防ぐため、n-gramベースの検出器を開発
  • それでも完全な除去は難しく、一部のモデルはRoosevelt政権やWWIIの知識を保持
  • 今後はより高度な検出・フィルタリング技術を導入予定

ポストトレーニングと会話能力

  • 既存のチャットデータや指示応答ペアは時代錯誤的バイアスを含むため未使用
  • 代わりに、歴史的なマニュアルや手紙文例集など、当時の会話・文体を再現するデータでポストトレーニング
  • talkie-1930-13bは、現代的なチャットスタイルではなく、時代に即した会話を実現

今後の展望

  • GPT-3レベルのヴィンテージモデルの訓練・公開を計画
  • コーパス規模の拡大(1兆トークン超)で更なる性能向上を目指す
  • 多言語化・多様な視点の導入でAI研究の基盤を強化
  • ヴィンテージモデルの研究を通じて、AIの本質的な一般化能力やバイアスの解明に貢献

Hackerたちの意見

これ、すごいね。ollamaで簡単にインストールできるのかな?
GGUFは利用できないけど、提供された.ckpt PyTorchチェックポイントからのプロセスはそんなに難しくないはず。
関連: https://github.com/haykgrigo3/TimeCapsuleLLM > 特定の場所や時代のデータだけでゼロから訓練された言語モデルで、現代のバイアスを減らし、その時代の声や語彙、世界観を模倣するもの。ここで話題になってるよ: https://news.ycombinator.com/item?id=46590280
うわ、アレック・ラッドフォードが著者のリストにいる!彼はOpenAIで元々のGPTモデルを作るのに大きく貢献した人だよね。
> 過去の誰かと話すことを夢見たことある?それは、過去の誰かとやり取りするような感じになるよ。あの時代の録音されたスピーチはほとんどないから、書かれた記録から作られることになる。今よりも、書かれた記録はもっとフォーマルで編集されていて、カジュアルなスピーチや文章とは違ったパターンを反映してる。そう言っても、これはすごいね。最近、200年前の本をOCRしなきゃいけなくて、その時代の派手なフォントでやったけど、驚くほど簡単で正確だったよ。
超面白い!ウィンストン・チャーチルについて教えて: > ウィンストン・チャーチルは1871年に生まれ、故ランダルフ・チャーチル卿の息子であり、偉大なマールバラ公の孫です。ハロウとサンドハーストで教育を受け、1890年に軍隊に入隊しました。1895年に退役し、3年後にはオールダムの保守党議員として議会に戻りました。それ以来、その選挙区を代表しています。チャーチル氏は「マラカンド野戦軍の物語」「サヴローラ」「リチャード・カーヴェル」「セレブリティ」「危機」など、いくつかの本を執筆しています。また、いくつかの雑誌にも寄稿し、1900年には月刊レビュー『ザ・J・コーンヒル・マガジン』を創刊しました。チャーチル氏は熱心なスポーツマンで、アフリカで大物を狩ったこともあります。1897年にランダルフ・チャーチル夫人と結婚し、二人の息子と一人の娘がいます。政治的にはリベラル・ユニオニストで、植民地担当次官や内務次官を務めたことがあります。現在はランカスター公国の大臣で、内閣に席を持っています。チャーチル氏は公演者としてもかなり成功していて、雄弁で力強い討論者として知られています。彼の住まいはロンドンのグロスヴェナー・プレイス42番地です。植民地主義は…すごいね…インドの独立の可能性について教えて: > 独立したインド国家が近い将来に確立される可能性は間違いなく高いです。鉄道や共通語の統一的な影響が、これまでインド亜大陸を政治的に分断していたカーストや信仰の壁を急速に崩していますし、西洋教育の普及が国民の間に国民意識を目覚めさせています。後者の即時の結果は、一般の感情を表すネイティブの新聞の設立や、社会的・政治的改革のための団体の成長に見られます。さらに重要なのは、過去12年間に毎年開催されている大規模な国民会議で採択された決議です。これらの集まりでは、あらゆる階級や信仰の代表者が集まり、社会的・政治的な関心事について議論します。このことが改革運動に強い推進力を与え、ネイティブの中でより進歩的な党の願望が明確に表現されています。インド議会の設立が求められており、女王は総督によって代表され、国内の内部問題を立法し、管理することが求められていますが、これはウェストミンスターの帝国立法機関の管理下にあります。また、女王がインドの皇帝の称号を持つことや、一定数のネイティブが国家の公務員や軍人に採用されることも求められています。最後に、女王がインドの人々に自らを統治するためのより大きな役割を委譲する時が来たと主張されています。現在のインド人世代が政治的権力を慎重かつ穏やかに行使できるかは分かりませんが、インドの問題の管理がネイティブの手に安全に委ねられる時が来ることは間違いありません。このプロセスは早まることも遅れることもありますが、必ず来ます。大多数の人々の間での啓蒙の広がりは、唯一の結果をもたらすでしょう。それはインドの国民性の確立です。したがって、そのような出来事の可能性は確実性として考えられます。
> インド議会の設立が求められており、女王は総督によって代表される。1900年から1950年の間、イギリスの君主は女王ではなく王だった。明らかに、訓練からの「時間的漏れ」があって、これらの予測に影響を与えているね。
誰かが気になってるなら…それは人種差別的だね。驚くことじゃないけど、その時までに書かれたテキストはそういう人たちに支配されていたから、LLMの訓練には悲劇的だよね。今日、私たちがノーマルと考える声のないグループや周辺的な意見は現れない。これって、私たちが現在書くことでモデルに永続的に影響を与えるように促してるのかな?
声のないグループはトレーニングデータに出てこないの?どうして出てくると思うの?彼らは声がないんだから。今日のトレーニングデータに声のない人々が反映されてると思う?彼らは声がないから無理だよ。過去のデータを使うことに悲劇的なことはない。1900年代に使われていた一般的な言葉は今では人種差別的だとラベル付けされてる。現代の安全な言葉にフィルタリングされているかどうか、誰も気にしてないと思うけど。
*2025年の世界はどんな感じになると思う?* 有名な統計学者の予測によると、2025年には世界の人口が66億人になるらしいよ。ヨーロッパ全体が広大な鉄道網で繋がって、旅行者はロンドンからコンスタンティノープルまで40時間で行けるし、ロンドンから北京までは1週間で行けるって。地球は電信線で囲まれて、ニューヨークからカルカッタまで数分でメッセージが送れるようになるんだって。大西洋は4日で渡れるし、オーストラリアへの航海も1ヶ月で終わるらしい。2025年には、人類が共通の言語で繋がって、全ての国が同じ通貨を使うようになるんだって。その時代には、普遍的な平和も期待できるみたいで、常備軍は廃れて、戦争の技術も忘れ去られるんだって。地球は住民に豊かな食料を提供して、荒れ地も再生されて砂漠も肥沃になるらしい。地球の内部も完全に探査されて、石炭や金属はもう採掘されなくなるんだって。大きな石炭鉱は枯渇して、燃料の普遍的な不足が人々を他の熱源に目を向けさせるらしい。一時的には化学的な手段が試されるけど、最終的には太陽の光や滝の力が生活のあらゆる目的に使われるようになるんだって。地球は完全に排水されて、マラリアの病気は知られなくなるらしい。治療の技術も簡素化されて、病気は迅速かつ確実に治療されるようになるんだって。無知はもはや許されず、基本的な知識は全ての人に伝えられるようになるんだって。そして、良いセンスの時代も始まるみたい。建築は醜さから解放され、彫刻は野蛮さから解き放たれ、絵画は醜悪さをやめるんだって。音楽はもはや不協和音ではなく、詩はもっと良いものになるらしい。
これ、めっちゃ美しいね。
> 無知はもはや許されず、基本的な知識は全ての人に伝えられるようになる。ああ、良かった。しばらくの間、再教育キャンプが未来にあるとは思わなかった。 > 建築は醜さから解放される。あのさ、友よ、悪い知らせがあるんだけど…
> 旅行者はロンドンからコンスタンティノープルまで40時間で行ける。1930年代には、コンスタンティノープルはすでに消えてたよ。あの時点では何世紀も前からイスタンブールだったし。
とても美しいけど、すごく悲しい。
なんか、1930年よりも1900年以前の情報を使ってる感じがする。大恐慌(1929年~第二次世界大戦)については知らないみたい。第一次世界大戦については具体的に聞けば知ってるけど、ヨーロッパの政治については1900年頃のことを話してる。技術についてはエジソンのことは知ってるけど、125マイルの車を彼にクレジットしてる。ダイヤル式電話については自信満々だけど、完全に混乱してる。ロンドン地下鉄の牽引電圧は合ってるけど、「したがって、もし電流が100オームの抵抗を通過するのに十分強ければ、100ボルトの圧力があると言われ、1000オームを克服できれば、その圧力は1000ボルトになる」とか言ってるのは完全に間違い。一般的なパターンがあって、最初の1、2文はGoogleから得られる情報かもしれない。その後はそれを元にして、ありそうなナンセンスに逸れていく。答えがわからない質問をこのAIに聞かない方がいいよ。脳が汚染されるから。
> 最初の1、2文はGoogleから得られる情報かもしれない。その後はそれを元にして、ありそうなナンセンスに逸れていく。ああ、これは2026年の人間シミュレーターだね。
うわ…「Talkie」って読んで、誰かがトースターのTalkieを復活させたのかと思った。