Show HN: 「Claude Code」を使用してHacker NewsやArXivなどの600GBインデックスをクエリする

概要

ExoPriors Alignment Scryは、Hacker News、arXiv、LessWrongなどの高品質な公開データをSQL＋ベクトル検索で横断的に調査できる研究ツール。
パブリックAPIキーで即利用可能、アカウント登録でさらに高機能。
ClaudeなどのAIツールと組み合わせて高度なクエリ作成やアラート通知も可能。
BM25・埋め込みベクトル・ハイブリッド検索など多様な検索手法をサポート。
パフォーマンスやセキュリティに配慮した利用ガイドラインも整備。

ExoPriors Alignment Scry 概要

公開APIキーを利用し、SQL＋ベクトル検索で60M件以上のドキュメント横断検索が可能な研究ツール
LessWrong、arXiv、Hacker Newsなど多様な高品質情報源をカバーするデータベース設計
BM25全文検索、埋め込みベクトル検索、ハイブリッド検索など多様な検索モードをサポート
ClaudeなどのAIツールと連携し、SQLクエリ自動生成・アラート通知など高度な自動化に対応
パブリックアクセスでも即利用可能、アカウント登録でプライベート領域・高負荷時の優遇・トークン上限拡大

主な機能・使い方

SQLクエリ送信による柔軟な検索・分析
- 例：特定キーワードの投稿やコメントを抽出
- curlコマンドやSQL例が公式ドキュメントに記載
ベクトル埋め込みによる意味検索
- 例：特定概念に近い投稿の抽出や、複数概念の合成検索
スキーマ自動発見やクエリ負荷見積もりで安全な実行をサポート
マテリアライズドビューで高速な事前絞り込み検索
- 例：mv_lesswrong_posts, mv_hackernews_commentsなど
アラート機能
- 指定条件で新規投稿があれば自動メール通知
- 例：「estrogen」に関する新規議論検知
埋め込みベクトルの保存・再利用
- 個人属性や概念プロファイルの作成・検索効率化

セキュリティ・パフォーマンス指針

クエリ実行前に要約と確認を推奨、重いクエリは明示的な承認を要求
LIMIT指定や候補セットの絞り込みでタイムアウト回避
パブリックキー利用時は大規模結合や全件スキャンを避ける設計
prompt injection等のリスクも明記し、自己責任での利用を推奨
API利用権限は最小限に設定、必要時のみネットワークアクセスを許可

利用開始方法

APIキー（公開・登録不要）
- exopriors_public_readonly_v1_2025 を利用
curlコマンド例やSQLサンプルを公式ドキュメントからコピペで即実行可能
Claude WebやClaude Codeとの連携でノーインストール・即時利用環境
アカウント登録でプライベート領域や高負荷時の優先権など追加機能

応用例・高度な使い方

埋め込みベクトルの合成・差分計算
- 例：@FTX_crisis - (@guilt_tone - @guilt_topic) で「FTX危機」かつ「罪悪感トーンのない」投稿検索
著者や時系列での知的ドリフト分析
- 例：ある思想家の変化をベクトルで可視化
ハイブリッド検索
- BM25で候補抽出→埋め込みベクトルで再ランク
高パフォーマンスパターン
- CTEやBM25のkindsパラメータ活用で効率化
- マテリアライズドビュー利用で高速化

注意点・制限事項

パブリック利用時はLIMIT 100など上限あり、大規模データ取得時はアカウント登録推奨
埋め込みトークン上限やタイムアウトに注意
信頼できる情報源中心だが、prompt injectionリスクなどセキュリティは自己責任
API仕様やデータ量制限は公式ドキュメントで随時確認

まとめ

ExoPriors Alignment Scryは、AI・機械学習・哲学・テック関連の最先端議論を横断的に検索・分析できる強力な研究基盤
ノーコード・即時利用から高度なSQL/ベクトル演算まで幅広く対応
AIツールとの連携で、専門家でなくても最先端のリサーチ体験が可能
研究者・技術者・情報探索者にとって、無料かつ高性能な知識探索ツール

Hackerたちの意見

今、自律的な学術研究システムに取り組んでいて、これを統合することを考えてるんだ。今はカスタムプロンプトとEdison Scientific APIを使ってるけど、これをオープンソースにする予定はあるの？

これがSQLを生成するのに頼ってるのがいいね。ただのブラックボックスチャットボットじゃないのがポイント。LLMを研究に使うには、自然言語から厳密なクエリ言語に翻訳するのが正しい使い方だと思う。すごくクールなプロジェクトだね！APIが悪用されないことを願ってるし、タイムアウトやサンドボックスもやってるといいな。これで大規模な結合をするのは簡単だからね。それと、あまり詳しくない分野からの質問なんだけど、データセット間で研究を行うときに意味の混乱（セマンティック・ブリーディング）に気づいたことはある？例えば、「最適化」はArXiv、LessWrong、HNでは多分違う意味を持つよね。もっと具体的な質問を考えると、ベクトル検索がこれを考慮してるのか気になるな。

└

これを証明する実験はないけど、私の経験から言うと、埋め込みモデルによってかなり変わるよ。大きくて能力の高い埋め込みモデルは、埋め込み空間で特定の単語の異なる使い方を分けるのが得意だけど、小さいモデルはそうじゃない。

それは私のClaudeプランの使い方としては良くないね。もし自己ホスティングのLllamaやQwen 7Bがクエリできるようにできれば、それはいいかも。

└

それはこの特定のことに関係なく、彼らの能力の問題だと思うよ。

└

結局、ただのプロンプトなんだよね。セルフホストされたモデルも同じようにシステムを使えるけど、質問に答えるための良いSQL+ベクトルクエリを書くのが難しいかもしれない。プロンプトはCodexとも相性が良くて、結構使われてるよ。

> Hacker News、arXiv、LessWrong、その他の数十の情報源にわたる最先端の研究ツール、これが最先端である理由は？

└

ツールは最先端だけど、情報源は歴史的なものだね。

└

まず、これが一番いいの？

└

規模がすごいよね。arxivの論文の内容をクエリできるツールって、どれだけ知ってる？

└

結局、ただのマーケティングだよね。保護された用語じゃないから、何でも「最先端」って言える。例えば、Gemmaモデルはリリース時に競合よりもパフォーマンスが劣ってたけど、それでも「最先端」って言われてた。だから、悪い製品ってわけじゃない（実際、Gemmaはいい製品だし）、でも主張はかなり自由だよね。Juiceroもリリース時は「最先端」だったけど、手で絞った方が良かったりしたし。

今、プロンプトと外部データセットを組み合わせるのは、すごくシンプルな流通チャネルだと思う。何かをすぐに、しかも手間なく探るのに最適だよね。2026年のcurl | bashみたいな感じ。

└

その通り。プロンプト + ツール + 外部データセット（API、ファイル、データベース、ウェブページ、画像）は、めちゃくちゃ強力な機能だよ。

これ、すでに存在するかもしれないけど、生物医学の研究論文で遺伝子やタンパク質、さらには生物学的プロセスに関する「補足資料」をクエリする方法を見つけたいんだ。今のところ、補足資料は一貫してインデックスされてないから、過去15年のゲノム学やプロテオミクスの研究から得られる洞察が見えにくいんだよね。このアプローチ、特にオープンアクセスデータには効果的だと思うんだけど。

└

ちょうど1週間前にこんなのを作ったよ：https://github.com/eamag/papers2dataset いろんな温度でテストされた保護剤を全部見つけたかったんだけど、君の問題にも拡張できるはず。OpenAlexを使って引用グラフをたどって、オープンアクセスのPDFを取得するんだ。

誰かGemini 3 Proでこれらのプロンプトを使ってみた？Claude、Gemini、GPTの最新の提供物は、コストを除けば同レベルな気がするし、開発者ならクエリや仕様を知ってれば、スムーズに移動できるよね。

どうやらハッカーニュースの「死のハグ」を体験してるみたいだね。

└

今は大丈夫なはず！最近の変なバグのヘルスチェックを見逃してたのが原因で、負荷の問題じゃなかったんだ。

ハクソク