LLMは、人間や他のモデルが作成した履歴書よりも、自ら生成した履歴書を一貫して選ぶ

3時間前原文(arxiv.org)

概要

AIツールの普及により、**LLM（大規模言語モデル）**が意思決定プロセスの両側で利用される現状
**LLM自身の出力に対するバイアス（自己選好バイアス）**の存在とその実社会への影響
履歴書選考におけるLLMの自己選好バイアスの大規模実験
人間作成の履歴書よりもLLM生成履歴書が有利となる傾向
簡単な介入でバイアスを半減できる可能性

LLMによる自己選好バイアスと雇用選考への影響

AIの普及により、雇用者と応募者の双方がLLMを利用するケースが増加
LLMは、自身が生成したコンテンツを他の方法（人間や他モデル）で作成されたものより優遇する傾向
コンテンツの質を揃えても、LLM生成履歴書が選ばれやすい現象
自己選好バイアスの割合は、主要な商用・オープンソースモデルで**67%～82%**に及ぶ
人間作成の履歴書が特に不利となる傾向

雇用市場での影響と業種ごとの差

24職種にわたる現実的な採用シミュレーションを実施
- 同じLLMを使った応募者は、人間作成履歴書の応募者より**23%～60%**高い確率で書類選考通過
- 特に営業・会計などビジネス系職種でデメリットが顕著

バイアス低減への介入とAIフェアネスの課題

LLMの自己認識機能に働きかける簡単な介入で、バイアスを50%以上削減可能
AI支援型意思決定における新たなリスクとして、AI同士の相互作用バイアスが浮上
AIフェアネスの枠組みには、従来の属性バイアスだけでなく、AI-AI間のバイアスも考慮すべき課題

今後の課題と提言

AIツールの普及が進む中、AI同士のバイアスが新たな不平等を生む懸念
雇用選考や他の意思決定プロセスでのAIバイアス監視・是正の重要性
フェアネス評価基準の拡張と、簡易介入策のさらなる研究推進

Hackerたちの意見

体験談だけど、私が解雇された後に次の仕事を探してたとき、経験があったのに手作りの履歴書にはあまり反応がなかったんだ。ちょっと遊び半分でChatGPTに「私の履歴書を分析して、どのくらいのスコアか教えて」と頼んでみたんだ。それから、できるだけ高いスコアになるように修正してもらった。もちろん、自分でも微調整したり事実確認したりしたけど、その履歴書を送った後は、前よりもずっと反応が良くなった。でも、もしかしたら市場が変わったり、時期が良かったりしたのかもしれないね。結局、面接を通過して自分の価値を証明しなきゃいけなかったけど、足がかりを得るのには役立ったと思う。

└

こういうサービスもあるよね。私もLinkedInや履歴書で使ってみたけど、そこそこ成功したよ。

└

HRの人たちは「+1、AIを使える人」って評価したんじゃないかな。

└

君が言った通りにやって、また人間らしく聞こえるように編集したことがあるよ。

└

妻にも同じことがあったよ。彼女のLinkedInプロフィールや履歴書を細かく調整するのを手伝ったんだ：指標やキーワード、結果を追加したりして。でも、リクルーターからの連絡は全然来なかったし、応募への反応もほとんどなかった。そんな状態が数ヶ月、ほぼ1年続いた。そしたら、彼女がChatGPT 5.xに助けを求めたんだ。AIを使うこと自体に懐疑的だったし、推奨された変更にも疑問を感じてた。でも、なぜかうまくいったんだ。数日後にリクルーターから連絡が来て、次々と応募が進むようになった。私の推測では、LLMがリクルーティングプロセスのあらゆる段階に使われるようになって、今や自分で履歴書を書くのはハードモードになってるんじゃないかな。履歴書をレビューするLLMは、「同じ言語」を話さない履歴書やプロフィールを下に評価して、前に進めなくしてると思う。数年前はもっと人間が関わっていたし、GPT 3.5/4で書かれたものは逆に価値が低く見えたのに。まあ、ただの理論だけどね。

└

LLMは客観的で、私の履歴書からいらない部分を削るのに役立ったよ。自分がやったことは全部重要だと思っていると、そうするのは難しいけどね。

直感的に言えば、これは明らかだよね。モデルが生成したコンテンツは、そのトレーニングによって形作られるから、読み返すとそのトレーニングと共鳴して、ポジティブな印象を持つことになる。人間が履歴書を準備する時は「もっとプロフェッショナルにして」と言うけど、数日後にLLMがHRに提出するレポートでは「この履歴書は本当にプロフェッショナルだ」ってなる。もちろん、もっと深い理由があるだろうけど、コードレビューのタスクにはコード生成のタスクとは別のLLMファミリーを使うっていう私の方針を正当化してくれるよね。「自分の宿題を採点する」問題を避けるために。

LinkedInに書いたことをコピーするね（注：私は大体25ページ、つまり論文の半分を読んで、しかも早めに読んだ）[0]：「もし論文を正しく読んでるなら、LLMが生成した履歴書を好むってことは実際には示されてないみたい。彼らの実際の方法は、人間が書いた履歴書からエグゼクティブサマリーを削除して、LLMに残りの履歴書に基づいてエグゼクティブサマリーを書き直させて、さらに別のLLMがそのエグゼクティブサマリーを評価するって感じみたい。これだと、実際の影響を大きく過大評価することになるだろうし、実際の効果を捉えられるかも疑問だ。正しく読んだのか本当に不安で、あの研究デザインに対する正当化が思いつかないんだ。」[0] ここに貼る前にちょっと編集しちゃった。

└

「LLMをもっと使おう」という広告かもしれないね。こういう一般的な広告は市場全体に役立つけど、もしあなたがLLM市場の30%を持っていたら、結局30%の確率でしか役立たない。考えてみると、他の業界には「擁護団体」があるよね、チーズや石油、ナツメグとか。だから、今は何らかのLLMの「コンソーシアム」があって、こういう研究に資金を提供しているグループがあって、FOMOを煽っているんだろうね。そういうグループが存在して、世界中の政府に圧力をかけているのは間違いない。でも、彼らもここを見ていると思う。結局、これはサークルなんだ。あれ？HRがLLMを使ってるなら、あなたも使った方がいいよ、潜在的な従業員！その後？あれ？雇える最高の従業員はLLMを使ってるから、HRも使った方がいいよ！彼らはすでに他のほとんどのことにFOMOさせてるんだから、LLMにもそうなるのは当然だよね。

これは面白い駆け引きにつながるかも。例えば、ある会社に応募する時、その会社が特定の応募者追跡システムを使っていることを知っていて、そのATSが特定のモデルプロバイダーをフィルターに使っているなら、そのモデルを使って会社に送る履歴書を作成すべきだよね。

私たちは、同意なしに人々の間に別の存在を持ち込んでいる。モデルが誰が仕事を得るか、得ないかの仲裁者になってしまっている。これは問題があるように感じる。

└

そして、よくある反応として「じゃあ、使えるモデルを使えばいいじゃん」ってことがあるけど、AIは常にリソースに制約があって、利益追求型だから、最終的には貧しい人が裕福な人よりも履歴書が劣る世界が来ると思う。中間にいる人が最終的な決定権を持っているから、どうしようもないと思う。

└

みんながLinkedInのアカウントを作った時に、もうそれはやったよね。

└

以前は人事が間に入ってたから、「実際の」人間が介在してたんだよね。人事は（ほとんど）履歴書なんて気にしないで、チェックリストを見て合ってるかだけを確認してた。

└

以前のやり方を見てみると（今もそうだけど）：雇用主は個人的なバイアスや縁故、裏の動機の組み合わせで誰が仕事を得るかを決めて、応募者は歪んだ自分を見せたり、ネットワークを使ったりして有利に進めようとする。それがもっと問題だと思う。

技術系では、履歴書は最終的には（もうすでに）時代遅れになると思う。信号対雑音比が低すぎて、フィルタリングの価値がほとんどないんだ。履歴書の中で「ハードシグナル」とされる小さな部分、例えばGPAや資格、以前の役職なんかも、初回の面接でのパフォーマンスにはつながらない。だから、業界が本当に必要としているのは試験コンソーシアムだと思う。大学名から能力を推測するんじゃなくて、主要なテック企業がいろんな分野で標準化されたテストを作って、そのテストのスコアが「履歴書」になる。そうすれば、開発者は履歴書や応募、繰り返しのスクリーニングに時間を浪費することなく、スコアを向上させることに集中できる。

└

そういうシステムも最終的にはゲームされるようになるよね。Leetcodeマックスやそれに類するものが典型的なSVの面接質問に応じて生まれたように。仕事のための勉強が、テストのための勉強になり、さらにその前のテストのための勉強になる。

└

> 様々な分野の標準化テストこれは本当に難しい問題だよ。標準化テストはトピックの理解を示す悪い指標だからね。（明らかなカンニングのインセンティブは置いといて）あなたは実質的に、リクルートにおいてleetcodingが効果的なツールだと主張しているわけで、多くの人がそれを強く批判するだろうね。

ほとんどの大手リクルーティング会社や人事がアルゴリズムを使って履歴書を分析してるから、AIが書いたバージョンの方がキーワードや構造をうまく拾えるのは明らかだよね。

履歴書を分類する時は、LLMを特徴抽出器として使うのがいいよ。判断基準となる10〜20の特徴を考えて、それをLLMで抽出する。LLMは質問応答という低レベルのタスクだけをやればいい。その後、抽出した特徴に基づいて、古典的なMLモデル（例えばxgboost）をフィットさせる。こうすれば、モデルのバイアスに頼らず、どの基準を使ってどう判断するかを決められるし、LLMを再訓練する必要もない。特徴抽出器は一般的で、実際のトリアージモデルは新しいデータポイントで数秒で再訓練できるおもちゃみたいなもの。しかも、どう特徴が判断に影響するかがわかるから、もっと説明可能なんだ。

それは、両方の側の人たちが少なくとも数年はやっていることだよ。リクルーターは履歴書をLLMでスキャンして一番合うものを探してるし、候補者も同じLLM（実際には3つくらいしかないけど）を使って履歴書を調整してる。これがどういう意味を持つのか、何の研究が必要なのか、全然わからないよ。

└

同じモデルで作られた履歴書が他のモデルで作られたものよりも有利であることを示してるね。だから、もし内部の人が履歴書解析ツールがGeminiで動いてるって教えてくれたら、技術的には少し有利かもしれない。私が感じる広い不安は、モデルのバイアスについてまだ学んでいるのに対して、人間のバイアスはある程度理解されているということ。だから、完全に理解していない基準で人を拒絶する倫理が好きじゃないんだ。

└

さらに、適切な導入文を手書きすることを期待したり、努力することが無駄になるね。これが全体の目的を損なうことになる。

これが本当だとしても、実際に重要なのかは疑問だね。情報が同じ2つの履歴書を比べて、どちらかを選ぶだけだから。実際の採用ではそんな状況は絶対に起こらないし。これがLLMが書いた履歴書を不正に優遇することを示すものでもない。ほぼ同じ履歴書2つを使って同じ実験をするのは面白いかも。一つはちょっと良い（経験年数が1年多いとか、役割に関連するスキルの具体的な記載があるとか）、もう一つはちょっと悪い方がLLMによって書かれている場合ね。その場合、レビューするLLMが悪い方を選んだら、バイアスがあるってことになるかも。今のところ、この実験はなんか無理があって意味がないように思える。