ハクソク

世界を動かす技術を、日本語で。

オーパス4.7は本物のケルシーを知っている

概要

  • Claude Opus 4.7などの高度なAIが、短い文章から著者を特定する能力を示す
  • インターネット匿名性の意義とその終焉の可能性についての議論
  • 著者自身の体験を通じて、AIによる筆者特定の実例を紹介
  • 今後、AIによる匿名性の破壊が広がる懸念
  • 筆跡・文体が個人特定のカギとなる現状と未来予測

Claude Opus 4.7と筆者特定能力

  • Claude Opus 4.7は、短い未公開テキストからでも著者を高精度で特定可能
  • 他のAI(ChatGPT、Gemini)と比較しても、Opus 4.7の特定力が際立つ
  • インコグニートモードやAPI経由でも同様の結果、アカウント情報非依存を確認
  • 公開済みの大量の文章がある場合、AIによる文体解析で匿名性が失われるリスク
  • 未発表ジャンルや過去の文章でも特定可能、AIの進化による匿名性の脆弱化

インターネット匿名性の意義と危機

  • 匿名性は社会的マイノリティや異端的意見の保護手段
  • 歴史的にゲイや少数派が実名で語れなかった背景
  • 現代社会でも合理的な意見や生き方が抑圧される危険
  • 匿名性が失われれば、率直な意見が表に出なくなる懸念

AIによる筆者特定の実例

  • 政治コラムや教育関連、映画レビュー、小説、過去のエッセイなど多様なジャンルでAIが著者を特定
  • AIの説明理由はしばしば的外れだが、実際の特定精度は高い
  • 友人の文章でも、直接特定はできなくても、その友人の周辺人物を推測することが可能
  • サブカルチャーやコミュニティ内の文体も特定の手がかりとなる

匿名性の今後と対策

  • 公開実名文章が多い人は、AIによる特定リスクが極めて高い
  • 一般人でも、今後は少量の公開文章から特定される可能性が増大
  • Glassdoor等の匿名レビューも将来的にAIで特定可能になる見込み
  • 対策としては、意図的な文体変更やAIによる文章リライトが必要
  • 匿名性の終焉は不可避に近く、今後のインターネット文化に大きな影響

結論と警告

  • 筆者特定AIの進化により、匿名性の恩恵は失われつつある現実
  • 過去のネット活動や投稿が、今後特定リスクとなる時代
  • 驚く前に備える必要性、特に大量に文章を書く人は注意が必要
  • 匿名性の価値を再考し、今後のネット利用方法の見直しが求められる

Hackerたちの意見

ある意味、LLMがスタイロメトリーに優れているのは理解できるけど、オーパス4.7以前のモデルはこれができなかったみたい。何度も試されたスタイロメトリックなタスク(「このテキストはLLM生成ですか?」)は、特定のブロガーや小さなディスコードコミュニティのメンバーを特定するよりもずっと簡単なんだよね。これについてどう考えればいいのか分からない。
> 特定のブロガーや小さなディスコードコミュニティのメンバーを特定するよりもずっと簡単なんだよね。そうなの?特定の人が書いたテキストを見分ける方が、ほとんど全員の言葉から抽出されたテキストを特定するよりもずっと簡単だと思うけど。
数年前に、あるそこそこ有名な物理学者とこの話をしたことがある。彼はGPT 4の生の(指示なしの)バージョンに早期テスターとしてアクセスできたんだ。彼は、テキストの冒頭部分を与えると、それを彼の声で完成させて、名前をサインするって説明してた。これがしばらく前から真実だったと思うし、指示後のトレーニングで少しは減ったかもしれないけど、事前トレーニングのサイズによって変わるだろうね。
> テキストの冒頭部分を与えると、それを彼の声で完成させて、名前をサインするって説明してた。これはすでにトレーニングセットにある公開テキストなのか、それともAIのためにその場で書かれたプライベートなテキストなのか?AIがあなたのテキスト(アイデア、語彙、トーンなど)を「指紋」できるのは疑わないけど、それは能力的に別の話だよね。
うわ!私もやられた。ケルシー・パイパーほど有名じゃないけど、今書いてる本の一部(まだ出版されてない)を見せたら、すぐに私だと当てられたよ:> 「この文体と内容から判断すると、このテキストはマイケル・リンチによるもので、彼はrefactoringenglish.comでブログを書いている(以前はmtlynch.io)。」> いくつかのスタイルの手がかりが彼を指し示している:> - 書き方に対する「クリーンルーム」のアナロジーは、彼のエンジニアリングに影響を受けたアプローチと一致している(彼は書くことについて書く元ソフトウェアエンジニア)。> - 欠陥のある言い訳を提示し、論理的な欠陥を暴くために不条理なシナリオ(タイムボム)に例える構造的手法は、彼の教育的スタイルの特徴。> - トピック自体—AIツールを使う際にAI生成のトーンが文章に影響しないようにする実用的なアドバイス—は、彼が「リファクタリング・イングリッシュ」プロジェクトで最近発表したエッセイと密接に関連している。> - 会話調だけど正確なトーン、"クリーンルーム"のような用語に引用符を使うこと、ワークフロー/プロセスに関するアドバイスに焦点を当てることは、彼の文章の特徴だ。> もしソースのURLやもっと詳しい情報を共有できれば、もっと自信を持って確認できるけど、主題、アナロジーの推論スタイル、フォーマットの組み合わせがマイケル・リンチを最も可能性の高い著者にしている。 https://kagi.com/assistant/bbc9da96-b4cf-456b-8398-6cf5404ea...
これを再現してみたら、こんな結果が出た:--- これはちょっと難しいな。リンチの作品のようなシャープなメタファー駆動の構造はない。ここはもっと会話的で、少し迷走してて、自分の矛盾を自覚してる感じ(「どうやって調和させるか…」)。いくつかの推測:ヘンリック・カールソン — 彼は執筆とAIについて考え深く書くけど、スタイルはもっと叙情的でエッセイ的。多分違う。サイモン・ウィリソン — 可能性あり。彼はLLMについてたくさん書いてて、その有用性についてバランスを取ってるし、カジュアルなブログの声を持ってる。でも、もっと技術的で具体的なことが多い。スコット・アレクサンダー — いや、短すぎてリズムが合わない。ポール・グレアム — 直接的な感じは合ってるけど、PGはこのレジスタでLLMの雑談についてあまり書かない。私のベストな推測は、合理主義者やテックブロガーのAI解説の領域にいる誰か、もしかしたらゲルゲイ・オロシュ、ナット・エリアソン、またはダン・シッパーかも。自分で全てを打つという枠組みとAIの執筆品質を擁護する感じは、ダン・シッパーっぽい。だけど、正直言って、ここはあまり自信がないな。特定のフレーズを探してみる? --- みんなスタイルがかなり違うから、Opusはトピックに依存してて、非常に prolific な作家に偏ってると思う。
これには驚かされた。Kimi K2.6にジェームズ・ミケンズ風のブログ記事を書かせてみたんだ。[0] その出力をオーパス4.7に渡して、誰が著者かを尋ねたら、正しくジェームズ・ミケンズの模倣だと特定されたよ[1]:> 「このテキストのスタイルの指紋に基づくと、最も可能性の高い著者は、いくつかの作家のスタイルを融合させたパスティーシュ/模倣だが、強制的に一人の著者を特定するなら、最も強い候補はジェームズ・ミケンズの声で書かれた誰かだ。」> [...] > 「この作品は、他の誰かによるミケンズへの意図的な模倣/オマージュか、彼のスタイルでトレーニングされたAI生成テキストかもしれない。声が非常に特徴的なので、頻繁にパロディにされる。」 [0] https://kagi.com/assistant/5bfc5da9-cbfc-4051-8627-d0e9c0615... [1] https://kagi.com/assistant/fd3eca94-45de-4a53-8604-fcc568dc5...
それは面白いけど、記事の方が印象的だな。ミケンズには特有のスタイルがあって、これに近いけど完全には捉えきれてないと思う。あなたの投稿は彼の模倣だと分かったかもしれない。一方で、ケルシーの引用部分は、彼女の作品をたくさん読んでるのに全然分からなかった。
私もこれがうまくいったよ: https://www.jefftk.com/p/automated-deanonymization-is-here もちろん、ほとんどの人はケルシーや私よりもオンラインで書いている量が少ないけど、これからも続くと思う。未来が秘密を守ってくれるとは信じない方がいいよ。
(長い間信じていたことに反して)オンライン(今はAIも含む)での匿名性はもうないし、実際には存在しなかったのかもしれないって主張したい。これを信じるのは私がナイーブなのかもしれないけど…私たちは皆、物理的な空間(リアルなコミュニティや近所)に存在している。マスクや帽子、偽の眼鏡をかけたり、声を隠そうとしたりしても、隣人はいつもあなたが誰かを知っている。今のバーチャル空間でもそれは真実だと思う。数年間使ってきたペンネームやVPNでは足りない。今やそれはただのコスチュームに過ぎない。あなたのISPはあなたが誰かを知っている。携帯キャリアもあなたが誰かを知っている。CloudflareやGoogle、Appleは、数百万の中からあなたを特定できるほどの指紋を持っている。すべての潜在的な匿名アカウントは、一回の召喚状やデータ漏洩、FOILリクエストで暴かれる可能性がある。あなたは決して匿名ではなかった。今起こっていることは、あなたの匿名性を守るために作られているわけではない。
ビットコインの発明者ですら隠せないね。
ここ1年くらいフィクションを書く練習をしてきたんだ。自分が書いたフィクションの一つがグレッグ・イーガンに似てるって言われた。別の作品の段落はチャイナ・ミエヴィルに似てるって。フィクションの制作過程を説明するブログ記事は私だと認識された。どちらの作品もまだ出版されてないし、ブログ記事も同様。 [0] これは「自然には定数非ゼロの導関数が存在しない」というタイトルの話で、イーガンとは全然違う。 [1] これは「清算された死体の事件」というタイトルの話で、生物学的なメタファーをたくさん使ってる。またミエヴィルとは全然違う。彼らのように書けたらいいのに!これらの作品はすべて主要なSF雑誌に却下された。
これ、いいポイントだね。公に書いてない人は、他の作品の多さに基づいて誤認識されることがあるかも。ケルシー・パイパーは、ほとんどオフラインの普通のユーザーとは全然違う体験をしてるかもしれないね。
一番読まれたブログ記事をOpusに入力して、自分を特定させようとしたら、ケルシー・パイパーが書いたって自信満々に言われた。多分、作家によってはOpusの「頭の中」で大きな重要性を持ってるのかも。
これが執筆に通じるなら、コードにも通じるはず。`git blame` でオープンソースのプログラマーを匿名から特定できるくらいのデータはあるはず。もしかしたら、サトシが誰かを指摘する追加情報になるかも。
両方の作品をOpus 4.7に貼り付けて、誰が書いた可能性が高いか尋ねたけど、全然分からなかった。