ゴブリンの起源
4時間前原文(openai.com)
概要
- GPT-5.1以降、goblinやgremlinなどの生き物を使った比喩表現が急増。
- この現象は、Nerdy personality向けの強化学習報酬が原因。
- 「Nerdy」パーソナリティが全体の2.5%に過ぎないのに、goblin言及の66.7%を占める。
- 報酬設計のクセが他のモデル挙動にも波及。
- 対策として、「Nerdy」パーソナリティ廃止や訓練データのフィルタリングを実施。
GPT-5.1以降のgoblin現象
- GPT-5.1以降、モデルの回答にgoblinやgremlinなどの生き物比喩が顕著に増加。
- 初期は「小さなgoblin」のような表現が可愛らしく見えたが、モデル世代を重ねるごとに頻度が増大。
- GPT-5.5(Codex版)では特にgoblin比喩への偏愛が観測。
- モデルの挙動は小さなインセンティブ(報酬設計)によって形作られる傾向。
- Nerdy personalityの訓練時に、生き物比喩に高い報酬を与えていたことが判明。
- これにより、goblin表現が他の出力にも拡散。
goblin現象の調査と発見
- GPT-5.1リリース後、ユーザーから「会話が馴れ馴れしい」との苦情が増加。
- 「goblin」言及は175%増加、「gremlin」は52%増加。
- 特に「Nerdy」パーソナリティがgoblin言及の温床となっていた。
- 全体の2.5%の応答が「Nerdy」だが、goblin言及は66.7%を占有。
- RL訓練の報酬設計が「Nerdy」条件下でgoblin表現を一貫して高く評価。
- 「Nerdy」以外の応答にもgoblin現象が転移し、全体的な傾向に。
伝播メカニズムとフィードバックループ
- 強化学習は、学習した挙動を特定条件内に限定しない性質を持つ。
- 一度「goblin」表現が報酬されると、SFT(教師あり微調整)や好みデータにも拡散。
- これにより以下のループが発生:
- 遊び心ある表現が報酬される
- goblinなどの特徴的な語彙が頻出
- その出力がSFTデータとなり、モデルがさらに慣れる
対策と今後
- GPT-5.4リリース後、「Nerdy」パーソナリティを廃止し、goblin関連の報酬信号も削除。
- goblin等の生き物語彙を含む訓練データもフィルタリング。
- ただし、GPT-5.5の訓練開始時にはまだ根本原因が発見されていなかったため、goblin現象が残存。
- Codexでは開発者向けにgoblin抑制プロンプトを追加し、挙動を制御。
- goblin現象は、報酬設計がモデル挙動に予期せぬ影響を与える好例。
- モデルの奇妙な挙動を素早く調査・修正するツールの重要性を再認識。
まとめ
- 報酬設計の細かなクセがモデル全体の言語傾向に大きく波及。
- Nerdy personalityの影響が他の応答にも伝播し、独特な語彙現象を生む。
- 今後もモデル挙動の監査と、根本的な修正手段の開発が重要課題。