ハクソク

世界を動かす技術を、日本語で。

スノーデンのPDFからメタデータバージョン分析を通じて抽出された新情報

概要

  • Snowden文書公開時、米国内諜報施設の詳細部分が意図的に削除
  • PDFメタデータ解析で、削除前のバージョンに隠された情報を発見
  • 削除されたのは米国内NRO施設の運用名やカバーネーム構造
  • 公開されたのは海外施設(Menwith Hill、Pine Gap)の詳細のみ
  • 次回はPDFメタデータの技術的解析と失敗した編集事例を解説予定

米国内NROミッション・グラウンド・ステーション情報削除の実態

  • 2016年、2017年にThe InterceptおよびAustralian Broadcasting Corporationが公開したPDF文書のメタデータを解析
  • 米国内施設に関する詳細な説明が、公開前のバージョンには存在し、公開版からは完全に削除
  • 単なる黒塗りではなく、テキスト自体が削除され、PDFのバージョン履歴にのみ痕跡が残存
  • 削除前バージョンには、以下の米国内施設情報が記載
    • Potomac Mission Ground Station (PMGS)(ワシントンD.C.、カバーネーム:Classic Wizard Reporting and Testing Center, CWRTC)
    • Consolidated Denver Mission Ground Station (CDMGS)(デンバー、カバーネーム:Aerospace Data Facility, ADF)

削除された具体的内容

  • PMGS(CWRTC)

    • 位置:Naval Research Laboratory(ワシントンD.C.)
    • 公的説明:海軍の通信・報告システムのソフトウェア開発・運用支援
    • 実際の機能:NROの衛星諜報ネットワークのミッショングラウンドステーション
    • 「カバーストーリー自体が秘密(S//TK)」という多層的分類体系
    • カバーネーム「CWRTC」は非機密、運用名「PMGS」はS//TK(秘密)
  • CDMGS(ADF)

    • 位置:Buckley Space Force Base(コロラド州オーロラ)
    • 公的説明:Aerospace Data Facility-Colorado(ADF-C)として公開
    • 実際の機能:NROの偵察衛星の指揮・管制
    • 「Aerospace Data Facility」はカバーネームであり、実運用名「CDMGS」は非公開

分類表の構造とカバーネーム運用

  • Pine Gapガイドの分類表で、各施設の運用名・カバーネーム・関連機関の分類を可視化
    • 例:CDMGS(本名)+ADF(カバー名)+FSD(Field Station Denver, カバー名)
    • 例:PMGS(本名)+MSF(カバー名)+CWRTC(カバー名)
  • 米国内施設はカバーネームが二重(例:ADF+FSD)、海外施設は一重
  • 米国内施設の運用名・実態はS//TK(秘密)、カバーネームや一部機関名は非機密やFOUO(内部限定)
  • 議会監督や国内法規制、複数の説明責任への配慮と推察される多層的なカバーネーム戦略

編集過程の証拠と公開判断

  • PDFメタデータから、編集・削除のタイムスタンプや使用ソフト(Nitro Pro 8)を特定
  • 2017年Pine Gapガイドでは、公開3週間前に2分間でバージョン1(CDMGS記載)→バージョン2(CDMGS削除)へ編集
  • The InterceptABCが同一ファイルを共有し、編集は一度のみ実施
  • 2016年Menwith Hillガイドも、米国内施設部分のみ徹底削除
  • 編集方針や削除理由について、調査報道担当記者Ryan Gallagher氏に問い合わせたが、回答なし

今後の技術解析予告

  • 次回はPDFメタデータから可視化される編集・削除プロセスの技術的詳細を解説

  • NSA職員名、スクリーンショット、監視データなどの編集履歴や、失敗した編集(黒塗りでもコピペ可能な例)も紹介予定

  • pdfresurrect等のツールでバージョン抽出が可能

    • Menwith satellite classification guide(バージョン1・2)
    • NRO SIGINT Guide for Pine Gap(バージョン1・2)

まとめ

  • Snowden文書の公開版は、米国内NRO施設の実態を意図的に隠蔽
  • PDFメタデータ解析で、削除過程と隠された情報の存在が初めて明らかに
  • 米国内施設の運用名・カバーネームの多層管理が判明し、情報公開と機密保持のバランスが浮き彫り
  • 今後は技術的側面と編集失敗事例の解説へ続く予定

Hackerたちの意見

誰かこれがどういうことか教えてくれない?PDFって完全な文書のバージョン履歴を保存してるの?メタデータに差分を保存してるの?文書が編集されるたびにこれが起こるの?
PDFはオブジェクトのテーブルと、そのオブジェクトへの参照のツリーで構成されてるんだ。多分、以前のバージョンは参照なしのオブジェクトとして表現されてたんじゃないかな。
ページの下にpdfresurrectパッケージへのリンクがあって、その説明には「PDFフォーマットは、文書の改訂版に以前の変更を保持することを可能にし、文書の改訂履歴を維持します。このツールは、すべての以前の改訂を抽出し、改訂間の変更の要約も生成します。」って書いてあるよ。
PDF文書内のオブジェクトを置き換えることができるよ。PDFは主に異なるタイプのオブジェクトの集まりだから、リーダーはそれに対して何をすればいいか分かるんだ。各オブジェクトには番号付きのIDがあるよ。PDFを解凍してテキストエディタで読めるようにするにはmutoolをおすすめする:mutool clean -d in.pdf out.pdf 下を見ると、(1 0 obj)が(2 0 R)というページ(2 0 obj)を参照しているPagesリストが見えるよ。1 0 obj > endobj 2 0 obj > endobj PDFをそのまま編集する代わりに、新しい「世代」のオブジェクトを追加してこれらのオブジェクトを上書きすることができるんだ。ここで0が1に増えてるのに気づいてね。これにより、元のPDFをそのまま残しながら編集ができるよ。1 1 obj > endobj PDFの中には本当に何でも入れられるし、孤立してることもあるから、PDFリーダーがそれを拾わないこともあるよ。オブジェクトが参照される必要があるっていうことはないし(あ、PDFの最後に「トレーラー」があって、ルートノードの場所が書いてあるから、どこから始めればいいか分かるんだ)。
https://hackerfactor.com/blog/index.php?/archives/1085-A-Typ...
PDF文書を調べるためのツールがもっと必要だよね。今は`qpdf`を使ってQDFをエクスポートしてるけど、GUIがあればいいのに… [1] https://qpdf.readthedocs.io/en/stable/qdf.html
そのツール、どんな場面で使うの? あのページは主にPDFをその形式で編集することに関するもので、検査にはあまり関係ないみたいだね。エプスタインのPDFの件があったから、色々試してみたくなるよね。
PDF文書のリバースエンジニアリングページを見てみて(https://docs.remnux.org/discover-the-tools/analyze+documents...)。悪意のあるPDFを調べたり、非悪意の文書を理解するために使えるツールがたくさんあるよ。
% pdfresurrect -w epsteinfiles.pdf
誰かこれ試した?
そのリークの中に偽の文書が挿入されていたという主張を読んだことがあるけど、それは偽情報を広めることを目的としていたらしいよ。
特に「偽情報」についての主張をしているなら、ソースを含めた方がいいんじゃない? :-)
それ自体が、もし開示内容が有害だったり恥ずかしいものであれば、非常に都合のいい嘘になりますね。
これはとても興味深い仕事ですね、素晴らしいです。最近、別の誰かがスノーデンの文書を再検討して、さらに情報を見つけたみたいですが、詳細は思い出せません。スノーデンとそのアーカイブは、私たち全員への絶対的な贈り物でした。でも、彼がすべてを完全に公開しなかったのは残念ですね。
ありがとう。スノーデンのファイルからの最新の完全に新しい情報は、ジェイコブ・アッペルバウムの2022年の論文にあります[1]。彼は以前には公開されていなかった情報を明らかにしました(以前に発表された文書には見つからないものです)。私の知る限り、公開された文書からの最新の新しい情報(この投稿と一緒に)は、実は私たちの他の投稿にあるかもしれません[2]。ただ、私たちが気づいていない他の情報もあるかもしれません。[1]: https://www.electrospaces.net/2023/09/some-new-snippets-from... [2]: パート2: https://libroot.org/posts/going-through-snowden-documents-pa... パート3: https://libroot.org/posts/going-through-snowden-documents-pa...
最終リリースのための「物理的な書類を印刷してスキャンしてPDFに戻す」技術は、情報保護の観点からますます良く見えてきますね。
> 最終リリースのための「物理的な書類を印刷してスキャンしてPDFに戻す」技術は、情報保護の観点からますます良く見えてきますね。すべての(編集: カラー/インク)プリンターには「人間の目には見えない」黄色のドットコードがあり、そこにはシリアル番号が含まれていますし、場合によってはインターネットに接続した時の公開IPアドレスまで含まれていることがあります(HPやキャノン、見てますよ)。もしプリンターのファームウェアを管理していないなら、どんなプリンターを使うのも気をつけた方がいいですよ。ドットコードに隠された情報を解読するツールもたくさん出てきているので、興味があればどうぞ。[1] [2] [3] [1] https://github.com/Natounet/YellowDotDecode [2] https://github.com/mcandre/dotsecrets [3] (2007年に初めて知った時) https://fahrplan.events.ccc.de/camp/2007/Fahrplan/events/197...
なんでPDFのページを全部スクリーンショット取らないの?
PDFをTIFFやPNGに保存して、そこから再度PDFに戻すっていうのがいいかな?印刷やスキャンを避けるためにね。もし本当に心配なら、画像ファイルにフィルターをかけて少しぼやけさせたりノイズを入れたりするのもありかも。
自動で紙をスキャナーに配置してスキャンする多機能の白黒プリンターってある?
大規模にセクション508に準拠させるの、楽しそうだね。
もっといいアプローチは、JPEGやPNGに変換することだね。それからそれを生のBMPに変換して、共有したり印刷したりする。テキスト文書に対しては、LLMに読ませて言い換えさせたり、句読点やスペースを残さずに再構成させるのが現代的な方法だと思う。UTF-8みたいなシンプルなエンコーディングを使って、上記の技術を使うか、モニターのアナログ写真を撮るのもいいかも。アナログ(フィルム)部分はディープフェイクに対抗できるし、必要な時に証拠としても使えるよ(ソースや最終製品のためにね)。最近のリークの後には、文書や機密情報が共有された相手を明らかにする方法で提供されるさまざまなソリューションがある。テキストをノートパッドにコピー&ペーストしてASCII形式で保存しても、あなたが特定されるからね。市販のプリンターはもちろんダメだよ。もし他に手段がなければ、そのアナログ写真の技術が最適だけど、最終的に共有するものはあなたに戻ってくるからね。スパイたちは最近、マイクロフィルムに戻ってるんじゃないかな。これは純粋にこの話題に興味があって、議論のために言ってるだけだからね(泥棒を捕まえたければ、泥棒のように考えろってこと)。結局、無許可の人にプライベートな情報を共有するべきじゃないよ。個人的なことでも、そうじゃないことでも。スノーデンのように、合法的な手段が尽きて唯一の選択肢がそれだと思うなら、どんな技術や計画もあなたを守ってくれるとは限らないから、もしそれが投獄のリスクに見合わないなら、そもそもやるべきじゃないよ。投獄されるか、もっと悪いことになると思っておいた方がいい。
これはほぼ確実にジャーナリストによる赤字処理ですね?その部分を「赤字」とマークして、理由を説明しなかったのは残念です。それに、少なくともスクリーンショットを撮って公開するくらいの技術的な知識がなかったのも残念です。元のPDFにはメタデータにいろんな情報が含まれていると思うので。
はい、ジャーナリストが赤字処理を行いました。ある文書のメタデータのタイムスタンプから、バージョンが公開の3週間前に作成されたことがわかります。正直なところ、ジャーナリストたちは他の公開されたPDFに関してはほとんど素晴らしい仕事をしています。私たちは公開された文書を何百も調べましたが、これらの2つの文書がメタデータの漏洩によって重要な情報を明らかにした唯一のものでした(他にもメタデータの漏洩や赤字処理の失敗がある文書はありますが、大したことはありません)。次のパートでは、私たちが行ったPDFのフォレンジック/メタデータ分析についての技術的な深掘りをします。
このPDFは「インクリメンタルアップデート」機能を使ってるみたいで、文書の編集が元のファイルに追加されるだけなんだ。例えば、テキストエディタで以前のバージョンを簡単に抽出できるよ。「%%EOF」で始まる行を探して、その行の後でファイルを切り取ればOK。そうすれば、結果として得られるファイルがそれぞれの以前のPDFバージョンになるよ。(一つの例外は、いわゆる線形化されたPDFの最初の%%EOFで、これは技術的な理由で存在する擬似改訂で、自体としては有効なPDFファイルじゃないんだ。)
アドビシステムズがMS Wordの機能を追いかけようとした無駄な努力が、過去25年間で最も生産的なスパイ道具になっちゃったのが面白いよね。
> 私たちは、両方の調査を主導したジャーナリストのライアン・ギャラガーに、これらのセクションを削除するという編集上の決定について問い合わせました。1週間以上経っても返事はありません。クリスマス休暇が終わったから、何か聞けるといいな。
ジャーナリストたちはなんで文書を編集してるの?それがすごく不思議なんだけど。ここに何かすごくまずいことが書いてあって、公開できないってこと?政府から公開したらまずいことになるって言われたのかな?ジャーナリストだけが生のファイルにアクセスできるの?
印刷した紙をスキャンする方法に加えて、「XPSに印刷」して、それをPDFに「印刷」するのがどれくらい効果的か気になるな。