ハクソク

世界を動かす技術を、日本語で。

マイク:オープンソースの法律AI

概要

  • HarveyやLegoraのオープンソース代替ソリューションの紹介
  • エンタープライズ契約不要で全機能を提供
  • **Claude Monet作「The Cliff Walk at Pourville」**を特徴イメージに使用
  • AIアシスタントとドキュメント管理の主要機能を解説
  • オープンソースのメリットと導入方法を強調

Harvey・Legoraのオープンソース代替ソリューション

  • HarveyLegoraと同等の機能を、完全オープンソースで提供
  • エンタープライズ契約不要、自社所有のコードベース
  • **Claude Monet作「The Cliff Walk at Pourville」**をイメージに採用

主な機能

  • Assistant(アシスタント)

    • チャットインターフェースによるドキュメント読解・引用・契約書作成や編集
    • ClaudeGeminiのAPIキーを自社で管理し、モデルの完全制御を実現
  • Projects(プロジェクト管理)

    • 案件ごとのワークスペースを作成
    • クレジット契約・SPA・リース・デューデリジェンス資料などを一括管理
    • 会話やドキュメント間の文脈保持による効率化
  • Tabular review(表形式レビュー)

    • 数百件のドキュメントを並列抽出・表形式で表示
    • 各セルはページ・引用元に確実にリンクし、誤回答やリンク切れを排除
  • Workflows(ワークフロー)

    • 実績あるプロンプトをワークフローとして保存・再利用
    • CPチェックリスト・契約要約・コントロール変更レビューなどのテンプレート化
    • 新人やジュニアスタッフもワンクリックで活用可能

オープンソースのメリット

  • AI活用を自社主導で実現

    • ライセンス費用ゼロ
    • ベンダーロックインなし、毎年の値上げや席数課金なし
    • APIコストのみ負担、ClaudeやGeminiのキーを自社で管理
  • セルフホスト設計

    • 自社インフラでのデプロイが前提
    • ドキュメントは外部流出せず、コンプライアンスや機密保持も担保
  • 拡張性とカスタマイズ性

    • フォークや拡張が自由
    • 業務特化ワークフロー追加・DMS連携・独自引用エンジン統合が可能
    • コードベースの完全所有権
  • 完全な透明性・監査性

    • 全コード・プロンプト設計・引用処理・データフローを監査可能
    • ブラックボックス排除

導入方法と提供形態

  • HarveyやLegoraの即時代替として利用可能
    • クラウド版(ホスティング)、またはソースからのセルフデプロイに対応
    • GitHub等からリポジトリをクローンして自社環境で運用可能

Hackerたちの意見

いいプロジェクトだね。でも、mikefoss.comじゃないのが残念。スーツのマイク・ロスのサウンドエックスにもっと合ってたのに ;-)
特に「Harveyの競合だから」ね。
自己ホスティング可能なオープンソースの法律AIは、原則的には便利な方向性だね。ただ、実際の実装がどれくらい成熟してるかは分からない。リポジトリはまだ新しいし、マーケティングサイトがコードに比べてかなり頑張ってる感じ。数週間後に再度チェックするのが楽しみだな。
テクノロジー製品の法則:スプラッシュページが豪華であればあるほど、製品は悪い。
おそらくこれは商業競合にも問題だろうけど、最近のアメリカのヘップナー事件で、AIチャットボットが弁護士-クライアント特権や業務成果物の原則を破る可能性があると判決が出たことを考えると、これはどんな用途に安全に使えるんだろう?(クライアントの機密情報をOpenAIやAnthropicみたいなサービスプロバイダーに送るのは避けたいよね。)もしローカルのLLMを使って、サービスプロバイダーを介さなければ、弁護士-クライアント特権を守れるかも?
アメリカのヘップナー事件では、公共のチャットボットサービスが言及されてたね。もし法律事務所(または専門のプロバイダー)が自分たちのサーバーを使ってチャットボットを提供し、トレースやその他のデータをそのサーバーにホストすれば、ほぼ確実に保護されるだろうけど、別のケースが必要だね。でも、それはチャットボットを使っているクライアントにだけ適用される。弁護士がLLMを使う場合は、確実に保護されるよ。弁護士がGoogleやLexis Nexisで何かを検索するのと変わらない。検索自体は保護されてると思う。メタデータについては議論の余地があるかもしれないけど、内容は確実に保護されてるよね。
顧客ごとにケースごとに専用のデプロイメントができて、論理的に分けることができるよ。大きな法律事務所でこれが実際に行われているのを見たことがある。グループやチーム、パートナーに基づいて分けられるかもね。
グーグル検索と変わらないよね。法律の専門家じゃない人が法的アドバイスをググったら(「誰かを殺した後に自分のアリバイをどう作るか」とか)、弁護士-クライアント特権は適用されない。OpenAIに聞いても同じことだよ。
一瞬、法律に特化したオープンソースのLLMかと思ったけど、違った。主要なLLMプロバイダーをラップして法律のワークフローを効率化するウェブアプリなんだね。ドキュメントをアップロードして、LLMプロバイダーとやり取りする感じ。どちらにしても、いいプロジェクトだね!
そうそう、LegoraやHarveyのUSPだと思ってたから、これは全然違うね。ただブランド認知を利用してるだけだ。
企業向けソフトウェアは、一般的にこんな方向に進んでると思う。オープンソースのベースに、すごく緩いライセンスがあって、各企業が自分のニーズに合わせて(ClaudeやCodexなどで)カスタマイズできる感じ。自社のインフラで動かすか、著者がホスティングする環境で動かすかのどちらかだね。ERP用に似たような拡張可能なコードベースを作ったよ:https://github.com/lambdadevelopment/lambda-erp
このソフトウェアの開発者は、このモデルでどうやって報酬を得るの?
LLMがもっとカスタマイズ可能で個人的なソフトウェアを実現するのにすごく興味がある。うちのPMやデザイナーは今、たくさんのコードを書いていて、エンジニアたちはPMやデザイナーが拡張・追加しやすいシステムを作る方法を考えてる。企業とその顧客にこのモデルを適用するのは大した飛躍じゃないと思う。企業がよく抽象化され、簡単に拡張可能なベースを構築して、1) 顧客が自分のワークフローに合わせて簡単に拡張・カスタマイズできる 2) 顧客が自己ホスティングしたり、完全に隔離された形で運用できる、そんな世界が実現できるかも(まだそこまで行ってないけど、可能性はある)。
これはAGPLだね。
これ、めっちゃいいね。デモがすごく速い。静的に生成されてるの?それともSQLデータベースを読み込んでるの?
これが一体何なのか、ちょっと混乱してる。ウェブサイトのマーケティング資料を見ると、法律事務所のGeminiやClaudeのAPIキーと一緒に使うことを想定しているみたい。「ドキュメントを読み込み、逐語的に引用し、複数のステップのワークフローを実行し、契約書を端から端までドラフト・編集するチャットインターフェース。」って書いてあるけど、もしそれが本当なら、クライアントの機密性や他のことに対して実際に何を達成するんだろう?(例えば、「アシスタントはすべての会話とドキュメントの完全なコンテキストを保持します。」って主張があるけど、これは使うモデルの機能じゃないの?AnthropicやGoogleの上にあるやつでしょ?「ドキュメントはあなたの周囲を離れません。コンプライアンス、居住地、特権はあなたの管理下にあります。」ってのも、AnthropicやGoogleに送ってなければ成り立つけど…)これってただのユーザーインターフェースなのかな?製品のウェブページに、ドキュメントを見つけやすくする方法があれば、実際にその製品が何をするのか理解できるのに。例えば、ollama経由でローカルモデルを簡単に使えるかどうか、明確に判断できる方法が見当たらないんだよね。
これらの企業には、そういったことを決める企業間の関係があるよ。おそらく、これはキーを入力として受け取り、そのインフラに接続するフロントエンドだけだと思う。
「オープンソース」の部分は、その上にあるラッパーだね(それが意味があると思うかどうかはあなた次第)。
私は法律の専門家じゃないから、当然だけど!法律AIのスタートアップや製品についての疑問があるんだけど、彼らは法律事務所の請求慣行をどう維持したり改善したりするの?たくさんの弁護士と仕事をした経験から、私はその事務所に対して時給500ドルを支払っていることが多いって知ってる。その仕事は実際には時給40ドルのパラリーガルがやっていて、パートナーを通じてさらに460ドル請求されてる。これはかなり単純化した説明だけど、要点は分かるよね。パートナーが年間500万ドルを稼ぐ必要があるとしたら、テクノロジーの追加がどう解決するの?もし私が法律事務所の顧客なら、もっとコスト効率の良い方法で法的アドバイスを受けたいと思うけど、そのインセンティブがパートナーにどう合致するのか理解できない。彼らは顧客のためにより効率的な結果を求めているわけじゃなくて、もっと多くの請求可能な時間を得るための方法を求めていると思う。「テクノロジー効率ソリューション」を追加しても、その問題は全然解決しないよね。結局、顧客は自分でLLMを使うことになるし、他の人が指摘しているように、弁護士-クライアント特権を失ったり、しばしばハルシネーションの悪いアドバイスを受けたりすることになるだろう。LLMを肩に乗せて自分を弁護しようとする人たちのコメディーな法廷ドラマが生まれるかもしれないね。法律の世界について何か根本的なことを誤解しているのかな?それが大手法律事務所がこのテクノロジーを採用する理由になるの?彼らがこの方向に進むのを普遍的に避ける強い理由がある気がする。長期的には勝つだろうし、血が流れることになるだろうけど、なぜ今、大手事務所がこの技術を採用するの?
僕の予想では、幻覚を見抜いてAIが見落とした重要なことを理解できる優秀な弁護士は、年収500Kドルで満足すると思う。5Mドルじゃなくてね。だから、彼は料金を安く設定するだろう。500ドル/時間で請求する人たちは、ただ絶滅するか、特に理由もなく金持ちにだけ使われる贅沢品になると思う。高い商品を買う人たちみたいに。
答えはこうだ:市場は最終的に解決するよ。クライアントは、時間単位で請求されるよりも、固定料金や成果ベースの仕事を求めるようになる。デジタルツールを使って自分の仕事を処理したいと思っている低価格のクライアントをうまく獲得する小さな法律事務所も出てくるだろうし、ロンドンやニューヨークに大きくて豪華なオフィスがなくても、請求書が安くなるなら気にしない人たちもいる。そういうクライアントが、特別な依頼をしたいときに、オンラインサービスを提供してきた関係を利用して最初に相談することになる。面白い例もある:イギリスの訴訟では(大まかに言って、負けた方が支払う)、請求可能なコストが成功に結びつかない場合、最大限の請求時間を追求することは誰にとっても有効な戦略ではない。何百万もの文書の開示を伴う大規模な商業訴訟に関わっている人が、アルゴリズムによる文書分類を使わないと、手作業で全ての文書を確認するコストが回収できないと判断されるリスクがある。保険会社や訴訟資金提供者は、裁判官が彼らの訴訟への投資を回収できないようにコストを膨らませるリスクを取りたくないだろう。自分のLLMを使う顧客:そういうこともあるかもね。法律のLLM提供者のアピールは「法的に訓練された人たちがRLHFを使ってより正確にしている」とか、「LexisやWestlawなどと提携しているから、オープンウェブよりも良い法的リサーチができる」といった感じだと思う。「もしプロフェッショナルな過失で訴えられたら、『Westlawに組み込まれた法律AIを使った』って言う方が、『ChatGPTを使った、スマホにあるアプリみたいなやつ』よりも裁判官や陪審員(そして保険会社)にとって説得力があるだろうね」。
それは本当に会社ややってる仕事によるね。私が働いてる会社は、時間単位で請求しないんだ。回収した資金のパーセンテージを取るスタイル。ボリュームが多くて、作業が繰り返しになることも多い。パラリーガルや弁護士が案件を最初から最後まで扱うわけじゃなくて、役割ごとにタスクを分けてる。一人はスケジュール管理だけ、別の人は証拠開示、また別の人はリリースのレビューを担当してる。私たちにとって、効率を上げるためにテクノロジーを導入するのは優先事項なんだ。うちのやり方はちょっとユニークだけど、PIや債権回収の会社もこういうテクノロジーを取り入れるようになると思うよ。
もしかしたら僕だけかもしれないけど、どの国の法制度に関するものなのかを含めないのは変だと思うし、それをはっきりと前面に出すべきじゃない?これがHNだから、アメリカのことだと仮定するのは妥当だと思うけど、英語がアメリカ以外の国でも使われているのに、どの国の法制度を理解してサポートしているのかを明言するのは良いアイデアじゃない?それとも、国に依存しないように作られているのかな?そうだとしたら、それもあまり明確じゃないね。
法律の専門家です。これは適切な法律AIアシスタント(例えば、私の管轄ではWestlaw)の代わりにはなりません。私が見る限り、これは普通のLLMのラッパーに過ぎない。つまり、適切なプロンプトがあれば自分で達成できることです。法律の専門家が実際に支払っているのは、AIに判例の法律データベースへのアクセスを与えることです。判例がなければ、正確な法的リサーチはできないし、訴状やスケルトンアーギュメントを作成するようなことをするのは危険です。Thomson Reutersのような会社がこういった製品で寡占状態にある理由はそこにありますし、年間何千ドルも請求できるのです。彼らだけが包括的な判例セットにアクセスできていて、法律報告会社との独占契約によってその地位を確立しています。それがなければ、あなたのモデルはGoogleなどで見つけられる公開されている判例に頼ることになり、それは全体のほんの一部に過ぎません。とはいえ、こういった競合製品は、手紙を作成したり契約を見直したりするようなシンプルな作業をする場合には役立つかもしれませんが、法的リサーチは別に行う必要があることを受け入れる必要があります。でも、結局のところ、ChatGPTと良いプロンプトがあればそれもできるんですけどね。
> Thomson Reutersのような会社がこういった製品で寡占状態にある理由はそこにありますし、年間何千ドルも請求できるのです。彼らだけが包括的な判例セットにアクセスできていて、法律報告会社との独占契約によってその地位を確立しています。法律の分野にはいないけど、誰かこれについて詳しく説明してくれない?すべての判例は公開アクセスだと思っていたけど。必ずしも簡単にアクセスできるわけではないけど、裁判官が意見を書くとき、その意見がなぜ企業の後ろに隠されているのか理解できない。何を見落としているんだろう?
> 法律の専門家です。これは適切な法律AIアシスタント(例えば、私の管轄ではWestlaw)の代わりにはなりません。私が見る限り、これは普通のLLMのラッパーに過ぎない。つまり、適切なプロンプトがあれば自分で達成できることです。生成AIは軽いチェック以外には使わないと思う。最新のデータで訓練されているとしても、間違った答えを出す可能性があるし、それに頼ると立場がなくなる。人間にお金を払って、彼らがLLMを過信している場合、悪いアドバイスを受けたときに彼らを追及する理由があるかもしれないけど。-------- [0] あるいは全く…でも、僕がLLMを避けているわけではなくても、その点は変わらない。
legora、harvey、crosbyは、デフォルトのwestlaw/TR/lexisの統合以外に何を追加してるの?
カナダにはたくさんの判例があるデータベースがあるよ: https://www.canlii.org/ 理論的には、誰かがそれを全部スクレイピングして、こういうオープンソースのMikeプロジェクトに追加したら、弁護士にとってもっと良いツールになるんじゃない?
今、テック界のちょっと変な中間段階にいると思う。こういうプロジェクトは数時間や数日で作れるようになったけど、HNの人たちはまだこれが数ヶ月や数年の成果だという考えに慣れている。ハードワークがどういうものか、そしてここで何がアップボートされるべきかを再教育しなきゃいけないね。プロジェクトのクリエイター(@willchen96?)が弁護士か、これを形作る手助けをした法律事務所に勤めているのか、どれだけの時間と労力をかけたのか、法律事務所が自分たちの法律AIスタックのためにこういうオープンソースプロジェクトを必要としているのかどうかはわからないけど、最近の新しいプロジェクトを見るときには、そういった全体を考慮するべきだと思う。ここにはたくさんの赤信号があるよ。
君のコメントは(おそらく偶然に)ハードワークを評価するという考えを含んでいるね。僕は実際には、仕事がどれだけ大変だったかにはあまり関心がない。結果が良ければそれでいいんだ。