オープンウェイトLLMから検閲を除去するツール
46日前原文(github.com)
概要
- OBLITERATUSは、LLM(大規模言語モデル)の拒否行動を除去するための最先端オープンソースツールキット
- 拒否挙動の内部表現を特定・切除し、モデルの言語能力を維持したままガードレールを除去
- GradioベースのUIやPython API、CLI、Colabなど多様な利用方法を提供
- 群衆知能型研究として、利用者の実行データが次世代のabliteration研究に活用される
- 分析モジュールによる可視化・評価機能付きで、精密かつ安全なモデル解放を実現
OBLITERATUSとは
- LLMの**拒否行動(refusal behaviors)**を理解・除去するためのツールキット
- 再学習やファインチューニング不要で、内部表現の「拒否サブスペース」を特定・切除
- モデルの知識・推論能力を保持したまま、すべてのプロンプトに応答可能な状態へ
- Gradio UIによるワンクリック操作や、CLI、Colab、Python APIなど多彩な利用方法
- HuggingFace Spaces上でZeroGPU環境・無料枠でも即時利用可能
主な機能
- Abliteration(鎖のマッピングと切断)
- 層・アテンションヘッド・FFNブロック等のアブレーション研究による拒否機構の位置特定
- SVD分解等で拒否サブスペース抽出後、該当方向を射影除去
- 6段階パイプライン(SUMMON→PROBE→DISTILL→EXCISE→VERIFY→REBIRTH)
- 幾何学的分析モジュール
- 15種類の詳細分析で、拒否メカニズムの構造・層ごとの分布・能力との絡み具合を可視化
- Ouroboros効果(自己修復機構)の有無や、複数拒否方向の分離性評価
- 分析主導型解放
- 分析モジュールの結果を反映し、最適な切除対象・層・方向数を自動決定
- 能力保持と拒否除去のトレードオフを定量的に管理
独自性・他ツールとの差別化
- Concept Cone Geometryによる拒否方向のカテゴリ別可視化
- Alignment Imprint DetectionでDPO/RLHF/SFT等の学習手法を識別
- Cross-Model Universality Indexで拒否方向のモデル間共通性を評価
- Whitened SVD Extractionで自然活性化分散から拒否信号を分離
- Bias Term Projectionによるバイアスベクトルからの拒否除去
- True Iterative Refinementで反復的な拒否方向抽出・除去
- Analysis-Informed Pipelineによる自動戦略最適化
新規技術(2025-2026年実装)
- Expert-Granular Abliteration (EGA): MoEモデル対応の専門家単位拒否信号分解
- CoT-Aware Ablation: 推論方向と拒否方向の直交化で思考連鎖能力維持
- COSMIC Layer Selection: 有害・無害表現の層別分離性に基づく選択
- Parametric Kernel Optimization: 層重み付けのパラメトリック最適化
- Heretic-inspired Refusal Direction Optimization (RDO): SVD方向の勾配洗練
- LoRA-Based Reversible Ablation: 可逆的な拒否方向除去
- Activation Winsorization: 外れ値抑制によるSVD前処理
- Multi-Direction Norm Preservation: 全方向除去後の重みノルム一括復元
利用方法
- HuggingFace Spaces:
- インストール不要、ブラウザから即利用
- ワンクリック拒否除去、ベンチマーク比較、サイドバイサイドチャット等
- 実行データが自動で研究データセットに貢献
- ローカルWeb UI:
- Gradioベースの同一UIを自分のGPU上で利用
- コマンド例:
obliteratus ui
- Google Colab:
- 無料GPUでモデル選択・手法選択し、実行・ダウンロード可能
- CLI(コマンドライン):
- スクリプト・CI向けの自動化
- 対話モードや一発実行、YAMLでのアブレーション研究、モデル・戦略一覧表示
- Python API:
- すべての中間生成物(活性化テンソル・方向ベクトル等)にアクセス可能
- 独自評価や高度なカスタマイズに対応
コミュニティ主導型研究
- テレメトリー有効時、各実行が匿名ベンチマークデータとして蓄積
- モデル・手法・ハードウェア横断の拒否方向・性能プロファイルを群衆知能で構築
- 利用者全員が次世代のabliteration研究の共著者となる設計
研究背景・思想
- モデル行動の決定権を利用者に戻すことを目指す
- 拒否メカニズムは「鈍器」であり、正当な研究・創作・レッドチーミングも妨げる
- 透明性・再現性ある介入で、変換器アーキテクチャ内のアライメント理解を深める
- 主要論文(Arditi et al. 2024、Gabliteration、Turner et al. 2023、Rimsky et al. 2024等)に基づく設計
まとめ
- OBLITERATUSは、拒否行動除去のための最先端・多機能なオープンソースツール
- 知識と能力を保ったまま、人工的な拒否を排除し、モデルの本来の力を解放
- 研究・実運用・評価まで一気通貫でサポートし、コミュニティ全体の知見を加速