ハクソク

世界を動かす技術を、日本語で。

Show HN: エプスタインファイルをインデックス化し検索するOSS AIエージェント

概要

Epsteinアーカイブのメールやメッセージ、裁判資料などを全文検索可能にしたAIエージェントの紹介。
1億語に及ぶ公開ドキュメントを自然言語で検索できる機能。
キーワード検索に頼らず、正確な情報探索が可能。
検索結果には出典元への直接参照も付与。
オープンソースでGitHub上にコード公開

Epsteinアーカイブ検索AIエージェントの概要

  • Epstein関連のメール、メッセージ、フライトログ、裁判資料などの記録をインデックス化
  • Niaによる全文検索エンジンの活用
  • 1億語の公開文書を即時検索対象として構築
  • 自然言語での質問に対応し、直感的な検索体験を実現
  • 根拠となる出典元ドキュメントへの直接リンクを回答に付与
  • 厳密なテキスト検索意味的(セマンティック)検索の両方に対応
  • 分断されがちな議論に対し、一次情報への直接アクセスを提供
  • 数千ページに及ぶPDFやテキストファイルを手作業で調査する必要の解消
  • オープンソースとしてGitHub(https://github.com/nozomio-labs/nia-epstein-ai)で公開
  • 技術的な質問や詳細な説明にも対応可能

技術的特徴と利点

  • 大規模な非構造データ(PDF、テキスト)の自動インデックス化
  • キーワード検索に依存しないため、曖昧な質問や複雑な意図にも柔軟に対応
  • 検索結果の根拠提示により、主張の検証やファクトチェックが容易
  • 断片的な情報を統合的に検索・参照できる環境の提供
  • オープンな開発体制により、透明性と拡張性を確保

想定される活用シーン

  • 研究者やジャーナリストによる事実確認や調査
  • 一般ユーザーによる一次資料の探索
  • 議論や主張の根拠提示や検証作業
  • 大規模文書の効率的なナレッジ発見

Hackerたちの意見

で、何を学んだの?
トランプは2002年にニューヨーク・マガジンにこう言ったことで有名だね。「ジェフとは15年の付き合いがある。素晴らしい奴だよ。彼といるのは楽しい。彼も俺と同じくらい美しい女性が好きだって言われてるし、その中には若い子も多い。」トランプとエプスタインは1990年代から2000年代初頭にかけて、パームビーチやニューヨークの社交界で知り合いだったんだ。マラ・ラゴや他の場所で一緒に遊んでたよ。
2024年、トランプはエプスタインの元プライベートジェットをキャンペーンの出演に使ったんだ。
それはかなりスパイシーな幻覚になりそうだね。
ベクトル埋め込みでこれが機能するの?
セマンティックサーチを使ってるから、はい、機能しますよ。
黒塗りされた四角の中に子供の顔がないと、ファイルがずっと衝撃的じゃなくなると思う。AIが偽の画像を戻して、これがどれだけ病んでるかを人々に分かりやすくできるか気になるな。
その気持ちはわかるけど、子供の画像をAIが生成することにはいつもすごく心配してる。
それは証拠の信頼性を下げると思う、増やすんじゃなくて。
表面的なことしか触れてないよ。 > ゲイツ氏は、エプスタイン氏の魅力と知性を称賛した。翌日、同僚にメールで「とても魅力的なスウェーデン人女性とその娘が訪ねてきて、私はかなり遅くまでそこにいた」と言った。もし、エプスタインの膝の上に座っていた子供、彼がフレンチキスしたティーンエイジャー、ナボコフの『ロリータ』の断片で肌を覆った女の子、彼の物件の一つに彼女の写真がいっぱい飾られていて、彼のデスクのフレームに入った写真全てに登場し、CD-ROMにも名前が載っている、エプスタインが唯一結婚したいと言った女性が、ビル・ゲイツが言及している娘だったらどうする? 彼女とその母親がエプスタインの主なロマンティックな興味であり、最も影響力のある存在だったら?
問題はそれをどう分析するかじゃなくて、法の上にいる人たちをどう起訴するかだよね。
それを分析するためにファイルを見なきゃいけない。
最初にOSSを読んだとき、これが戦略サービス局のAIエージェントだと思ったよ :)
...その最も有名なエージェント、OSS 117は、実はジェームズ・ボンドより4年前に登場してるんだよね。: https://en.wikipedia.org/wiki/OSS_117
会話を共有する方法を作ってほしいな。これ、結構重要だと思う。AIにはあまり興味ないけど、この使い方は許容できる。会話を共有できるのは本当にいいと思うし、これらの会話をweb.archive.org/wayback machineにアーカイブできるようにしてほしい。だから、ランダムなUUIDの代わりに、https://duckduckgo.com/?q=hello+test(hello testのクエリパラメータみたいな)を使えるといいな。もしかしたら私の考えかもしれないけど、アーカイブは特定のドメインのリンクをすべて表示できるから、多くの人がクエリをしてアーカイブすれば、良いクエリと回答のデータベースができるかも。アーカイブ機能は多くのケースで過小評価されてるよ。プロジェクト頑張ってね!
共有可能な会話があれば、ツールがもっと便利になるよね。UUIDよりもクエリパラメータのアプローチが好きだから、リンクが人間にとって読みやすくなるのはいいと思う。
他の多くの人が指摘しているように、公開されたファイルは全データセットに比べてほとんど何もないよね。個人的には、公開されているRedditデータを使ってOSINTや分析をかなりやってきた(去年の暇な時間のかなりの部分を使った)けど、言えることはLLMはパフォーマンスが低い(かなり控えめな表現)ってこと。従来のML技術に比べるとほぼ役に立たない。LLMの中では、最もパフォーマンスが良いのはオープンソースの無検閲モデル(最も無検閲で自由すぎる)で、最もパフォーマンスが悪いのはプロプライエタリで有料のモデル、特にここ2〜3ヶ月で:彼らは完全に弱体化してしまった。「アメリカの大統領選挙で投票資格があるのは誰か」というシンプルなプロンプトですら、論争の的になっているくらい。だから、全ファイルが公開される可能性が低いけど、もしそうなったら、私はLLMに時間を投資する前に従来のNLP技術をじっくり見ると思う。
どんなユースケースで期待外れの結果が出たの?何かRAGみたいなものを作ったの?
一番無茶苦茶で無検閲なモデルって何?
限定されたデータセットについて:完全に同意するよ。公開されているファイルは存在するもののほんの一部だし、すべてのファイルではなく、すべての公開されているものだって言うべきだった。でも、だからこそ、このサブセットを検索可能にすることが重要なんだ。今は人々がPDFを手動でctrl+Fしてたり、二次情報に頼っている状態だから。これなら少なくとも誰でも公開されているものを確認できる。LLMと従来のNLPについて:その気持ちわかるし、構造化データに関するLLMの幻覚の問題も見たことがある。だから、ここでのアーキテクチャはハイブリッドなんだ: - 名前、日付、識別子のための従来の正確なregex/grep検索 - セマンティッククエリのためのベクトル検索 - ソースを引用しなきゃいけないLLMオーケストレーションレイヤーで、グラウンディングなしでは回答を生成できない。
LLMの文脈で「検閲なし」は理解できるけど、「アンヒンジド」って何?特に特定のプロンプトなしで物議を醸すトピックに入る可能性を高めるためのファインチューニングのこと?
それはおかしいね。どのモデルがこれを物議を醸す質問として扱ってるの?「アメリカの大統領選挙で投票資格があるのは誰か」
本当だよ。私たちは基本的にエージェントのセキュリティのためにプラットフォームを離れて、自分たちのモデルをホストしてる。去年の中頃までは、OpenAIがそれにとって最も早くて安くて動いてたプラットフォームだった。ねえOpenAI、何年も脅威アクターのデータや行動であなたのプラットフォームをぶっ壊してくれてありがとうって、後で感謝してね! :P
> 現在、アーカイブにアクセスするのに技術的な問題が発生しています。検索ツールが内部サーバーエラーを返しています。どうやらサーバーが抱きしめられてるみたい。
誰かNIAがどうやってインデックスを作って、それをLLMに取り込むのか知ってる人いる?あと、これってローカルでもできるのかな?