ハクソク

世界を動かす技術を、日本語で。

メルコールの4万のAI契約者から盗まれた4TBの音声サンプル

概要

2026年4月、Lapsus$によるMercorの大規模情報漏洩で40,000人分の音声サンプルと身分証明書が流出。
この漏洩は音声バイオメトリクスと本人確認書類がセットで盗まれた点で過去と異なる深刻さ。
攻撃者は高精度な音声クローンと本人認証を悪用し、多様な詐欺や不正利用が可能に。
被害者は自分の音声が悪用されていないかを慎重に確認する必要。
ORAVYSは無料で音声の不正利用チェックを提供。

Mercor漏洩事件の全体像

  • 2026年4月4日、Lapsus$がMercorの4TB分のデータを公開
  • 漏洩データには40,000人のAI業務請負者の音声サンプルとID書類が含まれる
  • 請負者はAIトレーニング用音声データ収集のために参加
  • 5件の集団訴訟が10日以内に提起
    • 音声データが「訓練用」とされていたが、実際は恒久的なバイオメトリクス情報として扱われていた点が問題視

この漏洩が従来と異なる理由

  • 過去の漏洩は音声と身分証明書が別々で流出するケースが大半
  • Mercorでは音声サンプル・ID・セルフィーが同一データベースで紐付け
  • 高品質な音声クローンには15秒のクリア音声で十分(Wall Street Journal 2026年2月報道)
  • Mercorの平均音声サンプルは2~5分のスタジオ品質
  • 音声クローン+本人確認書類=なりすまし詐欺に最適な材料

攻撃者が可能となる不正利用手口

  • 銀行の音声認証突破
    • US/UK銀行の2要素認証の一部を音声認証が担う
    • クローン音声で音声ゲートを突破可能
  • 雇用主へのビッシング詐欺
    • HRや財務部門に成りすまし、給与振込先変更やワークステーションのロック解除を依頼
  • Deepfakeビデオ会議詐欺(Arup事件テンプレート)
    • 2024年、Arupで2500万ドル送金詐欺が発生
    • Mercorの漏洩データは公開映像より遥かに高品質
  • 保険金詐欺
    • Pindropによると2025年に音声クローン詐欺が475%増加
    • 電話対応が中心の自動車・生命・障害保険が標的
  • 高齢者への緊急なりすまし詐欺
    • FBI報告で2026年の高齢者被害額23億ドル
    • クローン音声で「家族のトラブル」を装う手口が急増

自分の音声が悪用されていないか確認する方法

  • 公開音声フットプリントの自己監査
    • YouTubeやPodcast、過去のZoom録画など公開音声を検索・削除
  • 家族や金融担当との合言葉設定
    • 録音やチャット履歴にないオリジナルフレーズを選定
    • 金銭要求の電話では必ず合言葉を確認
  • 音声認証サービスの再登録・削除
    • Google Voice Match、Amazon Alexa Voice ID、Apple personal voice等を削除・再登録
    • 可能なら異なる環境で新たに録音
  • 銀行に音声認証の無効化を依頼
    • 書面で**多要素認証(アプリトークンやハードウェアキー+知識要素)**を要求
  • 不審な音声ファイルはフォレンジック検査
    • 金銭・アクセス・緊急を求める音声はディープフェイク検出ツールで検査
    • ORAVYSが3件まで無料検査を提供

フォレンジック専門家のチェックリスト

  • コーデック不一致
    • 電話音声なのにスペクトル特性が一致しない
  • 呼吸パターンの不自然さ
    • 自然な吸気タイミングが崩れる、または不規則
  • マイクロジッターの欠如
    • 人間の声帯由来の微細な揺らぎが不自然に少ない
  • フォルマント遷移の異常
    • 母音間の物理的遷移が不可能なショートカット
  • 部屋音響の一貫性欠如
    • リバーブが途中で変化、または全体的に不自然
  • プロソディ(抑揚)の平坦化
    • ピッチやエネルギーの変化幅が狭い
  • 話速の均一性
    • 人間は内容で速度が変わるが、生成音声は一定

ORAVYSのフォレンジック検査体制

  • 3,000以上のフォレンジックエンジンが並列稼働
    • 信号・プロソディ・発音・コーデック・出自を自動解析
  • AudioSealウォーターマーク検出
    • 主要商用音声モデルで生成された場合、ウォーターマーク有無を判定
  • ASVspoofベンチマーク対応のアンチスプーフィング
    • 合成音声の確率スコアを算出
  • RGPD準拠のバイオメトリック処理
    • 明示的同意なしで商用モデル学習に利用せず、定期的にデータ削除

Mercor被害者向け無料検査の案内

  • Mercor請負者で音声流出の疑いがある場合、最初の3件は無料で分析
  • ウォーターマーク検出・アンチスプーフィングスコア・アーティファクトチェックを網羅したレポートを提供
  • クレジットカード不要・件数制限なし

参考資料・ソース

  • Lapsus$ leak site index(2026年4月)
  • Wall Street Journal voice cloning report(2026年2月)
  • Pindrop Voice Intelligence Report 2025
  • FBI IC3 Elder Fraud Report 2026
  • Krebs on Security archives
  • 訴訟情報は公開記録
  • ORAVYSは漏洩データセットのホスティング・再配布・入力受付を一切行わない

Hackerたちの意見

ここに作者がいます。今月初めにLapsus$が漏洩サイトにMercorのアーカイブを投稿したのを見て書きました。気になったのは、音声サンプルとID書類のスキャンが組み合わさっていることです。大体の漏洩はどちらか一方だけなんですが、これはディープフェイク対応のキットを提供しています。攻撃者がこのコンボで実際に何ができるか(銀行の音声認証バイパス、Arupスタイルのビデオ通話、保険詐欺)を実用的にまとめようとしました。ダンプに含まれていた契約者向けの5ステップチェックリストも作成しました。フォレンジック検出の側面についても話せますよ。AudioSealの透かし、AASISTのアンチスプーフィング、音声バイオメトリクスが大規模に漏洩した場合の検出環境の変化について。
面白いね、今日は深い話ができた。;) Mercerはこの事件についてあまり公の声明を出していないね。ソーシャルメディアの投稿は必ずしも公のものではないけど、CAに提出されたこの漏洩通知のサンプルを見つけたよ - https://oag.ca.gov/ecrime/databreach/reports/sb24-621099 。私たちの立法者がデータプライバシーを真剣に受け止めるかどうか、見てみよう。
盗まれたり漏洩したりできないデータは、存在しないデータだけです。ユーザーと企業にとっての厳しい教訓ですね。ドイツ人(もちろん)にはこれを表す言葉があります。「Datensparsamkeit」。データを節約すること。
LLMが登場する前の時代が懐かしいな。無駄なデータを持つことが単なる負債だって主張できたのに。今はみんな「AIのためにもっとデータを!」って考えてるだけだよね。
公開されているデータは盗まれたり漏れたりすることもないからね。MozillaのCommon Voiceデータセットを盗むことはできないよ。
データは物理的なものじゃないから、盗まれることはないんだ。データはコピーできるし、消去もできる。時には両方が同時に起こることもある。データが失われるのは、最後のコピーが消去されたときだね。
> ドイツ人(もちろんね)その理由があなたが示唆しているものかはわからないけど、70年代にはドイツでプライバシーやデータ保存について大きな議論があったんだ。彼らは「データの影(Datenschatten)」について話していた。おそらくこの言葉はその伝統から来ていると思う。言葉が存在する理由は、第二次世界大戦に対する反省(Verwaltigung)からだろうね。
> 盗まれたり漏れたりできないデータは、存在しないデータだけだ。ユーザーと企業の両方にとって厳しい教訓だね。でも、どの企業もこの教訓を学んでない。企業の脅威モデルには「自社のユーザー」も含まれていて、その脅威に関する情報をできるだけ多く保持しようとするのが彼らのやり方だ。
勝つための唯一の方法は、プレイしないことだね。
被害者を責めてる感じがする?君の声(DNAみたいに)は、隠しにくい環境データみたいなもんだし。
Mercorが4万人の契約者を騙して、そのデータのセキュリティも疎かにしたのは本当にひどいことだね。こういうことにはもっと厳しい罰が必要だと思う。
今起こってるのは、こういう会社を知らなかった無知なCTOたちが、その名前を知るようになったってこと。だから、この混乱の結果、Mercorにとってはビジネスが増えるかもね。Crowdstrikeのことを見ればわかるでしょ…。
現在のテキストから音声へのMLモデルの中で、どれだけの部分が漏洩したり「盗まれた」データを使っているのか気になるな。TTSのリリースは、どこからトレーニングデータを取得しているのかについて具体的に触れているものがほとんどない気がする。約6ヶ月後にSOTA TTSが爆発的に増えるのかも気になる。
もうそこにあるよ。そして進化し続けてる。いい感じのUIもあるし。 https://voicebox.sh/
いや、実際にはMozillaのCommon Voice(スピーチのImageNet)はこれよりも大きいよ。彼らの英語データベースは3814時間、160万文、10万人のスピーカーから成り立ってる。 https://commonvoice.mozilla.org/en/languages
その会社の目的は、そういうデータを盗むことだったように見えるね。
彼らのプライバシーポリシーを見てみて。絶対にそうだよ。彼らは動画や音声、その他いろいろを収集してるから。
> もしあなたがMercorの契約者で、自分の声がすでに流通しているかもしれないと思っているなら、ORAVYSは最初の3つの疑わしいサンプルを無料で分析してくれるよ。すごいね、AI会社に声を持たれて被害者になったら、別のAI会社に自分の声を送って助けてもらえるんだ! > 音声は明示的な同意なしに商業モデルのトレーニングには使われないよ。きっとMercorも明示的な同意を得てるだろうし、法務チームはライセンス条項で自分たちを法的に守るのが得意だから。
Airbnbのアカウントを削除しようとしたときの経験を思い出すよ。両面のIDカードのスキャンが必要だったんだ。もういいやって思って、その会社には二度と触れないことにした。
身分詐欺の和解金を思い出すな。報酬を請求するために、自分の身分を証明しなきゃいけないやつ。
あなたの身分が盗まれたことがありますか?1ヶ月間の無料クレジットモニタリングを試してみて!自分が引き起こした問題の解決策を売るのは、違法にすべきだと思う。
先週のWSJの記事によると、Mercorは契約のグレーゾーンで動いてる気がする。声だけじゃなくてね。多くの人が自分自身やビジネスを基本的に盗聴してたんだ!Mercorの「契約者」たちは、Insightfulを通じたデータ収集でMercorがやりすぎだって言ってるけど、実は賢い戦略だよ。みんな、自分の仕事を失うのが怖くて、あまり文句を言えないからね。意図的な不正行為に対する無制限の責任を負うことになるし。
アイロニーは、無料分析のオファーよりも深いんだ。Mercorの契約者関係はまさにこのパターンだった:スタジオ品質の音声録音やIDスキャンを渡して、実際には必要ないデータラベリングの仕事でお金をもらう。 "明示的な同意"は契約の中に埋もれていて、みんな給料が必要だからクリックしちゃった。今、4万人がバイオメトリクスはパスワードじゃないって学んだ。声を回転させることはできないからね。
"CYA"って、ちょっと誤解を招く表現かも。理想的な世界では、法制度は暴力の代わりに紛争を解決するためのアクセス可能な手段を提供するはずだけど、実際には企業が個人に対して権力を維持するための、途方もなくカフカ的なシステムとして使われてる。現実は、法的救済の道をすべて塞いでるのに対して、他の手段はまだ存在していて、それを難しくするには高額で継続的なコスト(複数の住居を持つことやセキュリティを雇うことなど)が必要なんだ。明確に言うと、私はもっとアクセスしやすく公平な法制度を提唱してるだけで、UHCスタイルの暴力を支持してるわけじゃないよ。
だから、みんな自分の声を回していけばいいんじゃない?冗談だけど、私が知ってる「普通」の人たちは、_楽だから_バイオメトリクスを渡すことに抵抗がないんだよね。バイオメトリクスを「永遠のパスワード」とかにブランディングして、彼らが自分の口座にアクセスしたり、ディズニーワールドに入ったりする時に何を渡しているのかを理解させる必要があると思う。
問題の一つは、「永遠のパスワード」って、銀行で働いてたときはポジティブな意味で使われてたんだよね。顧客が忘れられないパスワードで、サポートも必要ないから。だから、これをポジティブに捉える人が多いのも分かる。
「簡単だから」って言う人たちは、あなたや私とは根本的に違う考え方をしてる。彼らは、プラウザブルな否認と社会的信頼の世界で生きてる。自分に何が起こっても、自分のせいじゃなければほとんど気にしない。リスクを取ることを、ある意味で自分の責任とは考えてないみたいで、ちょっと感心する。彼らは、世界があるべき姿であるかのように生きてる。
機能的には、生体認証はパスワードよりもユーザー名に近いんだよね。指紋、DNA、虹彩スキャン、歩行パターンなどは、ほとんど変更できない(永久的なアカウントIDのように)し、常に世界にさらされている(メールアドレスのように)。さらに、アメリカの法律では、警察は指紋の提示を強制できるけど、パスワードは第5修正条項で保護されてる。
生体認証のペアリングが特に悪いところだよね。漏れたパスワードは回復できるけど、漏れた声紋とIDスキャンは永久的なもので、声を変えることはできないから。根本的な問題は、ほとんどの企業がこのデータを集めたのは、必要だからじゃなくて、できたからってこと。「データ節約」って言葉がぴったりだね。声のサンプルは、まさにこういう事態を待っている負債みたいなもんだ。
4万人が脅威にさらされてるわけじゃないよ。毎月UpWorkでAI契約者の仕事のオファーが来てるけど、1つ以上受け入れなくてよかった。やる価値がないからね。
この投稿、ただのバイブコーディングされたサイトや商品の広告じゃない?Mercorの違反について新しい情報は何も追加されてないし、もっとひどい安全対策をしてるものを宣伝してる気がする。