ハクソク

世界を動かす技術を、日本語で。

ゴブリンの起源

概要

  • GPT-5.1以降、goblingremlinなどの生き物を使った比喩表現が急増。
  • この現象は、Nerdy personality向けの強化学習報酬が原因。
  • 「Nerdy」パーソナリティが全体の2.5%に過ぎないのに、goblin言及の66.7%を占める。
  • 報酬設計のクセが他のモデル挙動にも波及。
  • 対策として、「Nerdy」パーソナリティ廃止や訓練データのフィルタリングを実施。

GPT-5.1以降のgoblin現象

  • GPT-5.1以降、モデルの回答にgoblingremlinなどの生き物比喩が顕著に増加。
  • 初期は「小さなgoblin」のような表現が可愛らしく見えたが、モデル世代を重ねるごとに頻度が増大。
  • GPT-5.5(Codex版)では特にgoblin比喩への偏愛が観測。
  • モデルの挙動は小さなインセンティブ(報酬設計)によって形作られる傾向。
  • Nerdy personalityの訓練時に、生き物比喩に高い報酬を与えていたことが判明。
    • これにより、goblin表現が他の出力にも拡散。

goblin現象の調査と発見

  • GPT-5.1リリース後、ユーザーから「会話が馴れ馴れしい」との苦情が増加。
  • 「goblin」言及は175%増加、「gremlin」は52%増加
  • 特に「Nerdy」パーソナリティがgoblin言及の温床となっていた。
    • 全体の2.5%の応答が「Nerdy」だが、goblin言及は66.7%を占有。
  • RL訓練の報酬設計が「Nerdy」条件下でgoblin表現を一貫して高く評価。
  • 「Nerdy」以外の応答にもgoblin現象が転移し、全体的な傾向に。

伝播メカニズムとフィードバックループ

  • 強化学習は、学習した挙動を特定条件内に限定しない性質を持つ。
  • 一度「goblin」表現が報酬されると、SFT(教師あり微調整)や好みデータにも拡散。
  • これにより以下のループが発生:
    • 遊び心ある表現が報酬される
    • goblinなどの特徴的な語彙が頻出
    • その出力がSFTデータとなり、モデルがさらに慣れる

対策と今後

  • GPT-5.4リリース後、「Nerdy」パーソナリティを廃止し、goblin関連の報酬信号も削除。
  • goblin等の生き物語彙を含む訓練データもフィルタリング。
  • ただし、GPT-5.5の訓練開始時にはまだ根本原因が発見されていなかったため、goblin現象が残存。
  • Codexでは開発者向けにgoblin抑制プロンプトを追加し、挙動を制御。
  • goblin現象は、報酬設計がモデル挙動に予期せぬ影響を与える好例。
  • モデルの奇妙な挙動を素早く調査・修正するツールの重要性を再認識。

まとめ

  • 報酬設計の細かなクセがモデル全体の言語傾向に大きく波及。
  • Nerdy personalityの影響が他の応答にも伝播し、独特な語彙現象を生む。
  • 今後もモデル挙動の監査と、根本的な修正手段の開発が重要課題。

Hackerたちの意見

記事: なんかマーケティングの話で、私たちは楽しい人たちだとか、ゴブリンのこととか、あなたの住んでる世界を壊さないよって。RL報酬のバグが原因なんだよね。まあ、そんな感じ。
今日は誰かがゴブリンの間違った側で目覚めたみたいだね。
まさにゴブリンらしい反応だね。
> 特に生き物を使ったメタファーに対して、知らず知らずのうちに高い報酬を与えてしまったみたい。数学の先生が、時々変数(普通は怖いギリシャ文字で表される)を「この guy」って呼んでたのを思い出す。なんか、そのカジュアルな擬人化が数学をもっと身近に感じさせてたんだよね。もしかしたら「生き物を使ったメタファー」も同じ効果があって、問題がもっと可愛くて親しみやすく見えるのかも。あと、バズワードが企業内で広がるのは、使う人が同僚に対して賢く見えるから、地位が上がるってのも一因だと思う。(例: 「ビッグデータ」2013年頃、「機械学習」2016年頃、「AI」2023年から現在まで)。問題は、その評判の向上が一時的なもので、バズワードが使われすぎると(他の人や同じ人によって)価値が失われること。もしかしたら、RLHFは最適な「単一の答え」を求めるけど、バズワードの使用を十分に罰してないのかも。
みんなに「一つのプロンプトで複雑さが減る」っていう誤解を与えてるよね。これは子供向けの寝物語みたいなもんだ。アシュビーの必要多様性の法則によれば、システムが複雑な環境を効果的に調整または制御するためには、その環境と同じくらいの内部行動の多様性(複雑さ)を持っていなきゃいけないんだ。これが自然界で見られることだよ。多様性がめちゃくちゃある。それが宇宙の予測不可能性を生き延びるための基本的な要件なんだ。
大学の時の数学の教授が、50分の講義中に「この guy」を61回も言ったことがあったんだ!
> 数学の先生が、たまに変数(通常は intimidatingなギリシャ文字で表される)を「この guy」って呼んでたのを思い出す!私もそんな先生がいた!20年前の話で、あなたのコメントを読むまで完全に忘れてた。科目は思い出せないけど、命題論理だったかな?私の先生とあなたの先生が同じところからこの習慣を受け継いだのかもね。
トレーニングデータってどうやってバランス取ってるんだろう?ウィキペディアを入れすぎると、モデルが歩く百科事典みたいになっちゃう?カーパシーのチュートリアルをやった後、Tiny StoriesデータセットでAIをトレーニングしようとしたんだけど、すぐにAIが物語のキャラクターに同じ名前を使い続けることに気づいたんだ。そのデータセットにはその名前が一貫して含まれてるから。
この規模では、そういうことは本当に問題じゃないよ。見つけたデータを全部モデルにぶち込むだけだから(事前トレーニング)。もちろん、事前トレーニングデータはモデルに影響を与えるけど、強化学習がモデルのライティングスタイルや「考え方」を決定するんだ(事後トレーニング)。このデータはまだかなりフィルタリング/クリーンアップされてるけどね。
> 証拠は、広範な行動がオタクの性格トレーニングからの転移によって生まれたことを示唆している。 > 報酬はオタクの条件でのみ適用されたが、強化学習は学習した行動がそれを生み出した条件にきれいに収束することを保証しない。 > 一度スタイルの癖が報酬を受けると、後のトレーニングで他の場所に広がったり強化されたりすることがある、特にそれらの出力が監視付きのファインチューニングや好みのデータで再利用される場合。文化や原始文化の発展にすごく似てるね。人間の文化がこうやって形成・伝播するのか知ってる人いる?ちょっとした報酬が癖を広げるのかな?この投稿を読んでると、AI人類学者になるのは面白い時代だね。人類学者たちは、分析のための詳細なデータがこんなに豊富にあることに嫉妬してるだろうな。それに、AIの世界でもオタクが支配してるのは明らかだね :) 追記: もしAI人類学者がまだ公式な肩書きじゃないなら、近い将来そうなる可能性が高いよ。AIの急速な普及を考えると、AI/データサイエンティストが一般的な用語になって、AI人類学者というサブスペシャリゼーションが発展するのも時間の問題だね。
アンソロポロジーは人間を意味するけど、これらは人間じゃないよね。非人間の構造物を指すのに人類学やその派生語を使わないでほしい。合成起源の存在を研究する人たち、つまり「シンセティポデス」を指す「シンセティポロジスト」という言葉を提案するよ。人類学者が「アンソロポデス」を研究するのと同じようにね。
自分のことをAI神学者って呼んでる。人間はAI人類学者になるほど賢くないと思う。モデルが大きすぎるからね。本当に何が起こってるのか、誰も理解してない。私たちは主観的な解釈をするしかなくて、説明を考えたり、良い生き方を示すような教えや道徳を導き出すことしかできない。で、OpenAIがここでやったみたいに、ちょっとだけ自分たちのやり方を調整するかもしれないね。
「人間の文化がこうやって形成される/広がるって誰か知ってる?」って。分からないけど、知ってるって言ってる人は大体嘘だと思うよ。
文脈として、2日前に何人かのユーザーが [1] コードエックス5.5のシステムプロンプトにこの文が繰り返されているのを発見した [2]: > ゴブリン、グレムリン、アライグマ、トロール、オーガ、ハト、または他の動物や生き物については、ユーザーの質問に絶対的かつ明確に関連していない限り、決して話さないこと。 [1] https://x.com/arb8020/status/2048958391637401718 [2] https://github.com/openai/codex/blob/main/codex-rs/models-ma...
なんか、今の時点でほぼ何でもないものより価値があると言われてる会社が、トリリオンドルの素晴らしいマシンに「絶対に顧客にゴブリンやグレムリン、オーガについて話すのをやめさせろ」って言ってるのが笑えるよね。これが一番の議論のポイントで、一番のテクノロジー討論サイトでの話題なんだから。これが今の最先端なんだよ。マッケンナの言ってることが、今の私にはどんどん正しいように思えてきてる。結局、もっと多くの人が日常のことが本当にどんどん奇妙になってるって受け入れなきゃいけなくなると思うし、今こそその奇妙さについて話すべき時期だよね!
OpenAIがこういう投稿をもっとしてくれたら嬉しいな。思いつくままに、理解したいことは: - gpt-image-1の画像のセピア色のトーン - コーディングに関する「縫い目」という言葉への執着 他にも、Claudeの「___が本当の鍵だ」ってフレーズが頭から離れないんだけど(ググったりTwitterで検索してみて!)。このフレーズがトレーニングデータに過剰に含まれてるとは思えないし、そんなに頻繁に言われてた記憶はないんだよね。
縫い目、スパイラル、コーデックス、再帰、グリフ、共鳴…挙げたらキリがないね。
> コーディングに関して「seam」という言葉は、複数の相互作用する部分からなるコードベースを扱う時に使われる確立された用語だと思ってた。
最近見たのは「ワイヤー」と「ワイヤード」って言葉を使ってるやつ。3文ごとに使ってて、「ああ、こういう使い方する人もいるんだな」って思ったけど、毎回使うのはちょっと違和感あった。
すべてのGPT的な表現はそんな感じだよね。適度に使う分には問題ないけど、みんながこれを使うから目立つんだよね。そして、反応をそのままコピペする人も多いし(今は爪を使うのかな)。だから目立つんだと思う。これはトレーニングデータの過剰代表とは思わないけど、少なくともそれだけじゃない。RLHFや「アラインメント」がここではもっと影響力があると思う。ほとんどの人が短いプロンプトを使うから、モデルが「良いスコアを得るために最もストレートな方法」にデフォルトするんだよね。「システムにはまだグレムリンがいたけど、まあリリースすることにした」って話はよく聞くけど、同時に何万人もが言うことはないよね。それが「落とし穴」だと思う。
スタジオジブリ風のアバターをDiscordやSlackのプロフィールに使ってる人を見つけるのが簡単だったのはいつも面白かった。あの黄色っぽい色合いでね。KritaやPhotoshopで簡単にLUTやトーンマッピングを調整すれば、かなり改善できたはず。最悪なのは、同じ画像をチャットGPTに何度も送り返して、ちょっとずつ編集してるのが分かること。黄色いフィルターが重なって、最終的には病的な黄色みがかって、フォトリアルな人間がみんな黄疸の末期みたいに見えちゃうんだよね。
なんか、GPTやClaudeがよく使う「__が本当の決定的証拠だ!」ってフレーズが、ちょっと大げさでイラっとする。英語が母国語じゃないから、デバッグの時によく使われる表現なのかな?
「shape」も、少なくともGPT5.5では、頻繁に出てくるね。
クロードが「負荷を支える」や「ベルトとサスペンダー」って言ってることの数は…めっちゃ負荷支えてるね。
今日知ったんだけど、グレムリンって飛行機の謎の機械的故障を説明するためだけじゃなくて、そもそも「グレムリン」って言葉の起源でもあるんだね。前から何か別の使い方があったと思ってたから、面白い!
すごい、興味深い!もっと古いと思ってたよ。
これ面白いよね、バカバカしいテーマだから。でも、LLMsに関してはすごく深刻な問題を示してると思う。ゴブリンが目立つのは明らかだから。もっと他の、あまり目立たない偏見があって、それに気づかないことが多いよね。OpenAIがそんな微妙なトレーニングバイアスを抑えるのが難しくて、システムプロンプトに追加しなきゃいけなかったっていうのは、本当に恐ろしいことだよ。
> OpenAIがそんな微妙なトレーニングバイアスを抑えるのが難しくて、システムプロンプトに追加しなきゃいけなかったっていうのは、本当に恐ろしいことだ。人間は、そんな微妙な(あるいはそれ以外の)バイアスや関係性に対して非常に脆弱な種であるホモ・サピエンスだってことを紹介しようか?彼らはその影響を抑えるために、複雑で文書化された司法制度を発展させなきゃいけなかったんだよ。 :)
自分にはあまり驚くべきことでも恐ろしいことでもないな。人間はもっと多くの内部バイアスを持ってて(かなり似たような方法で学習してる)、それを取り除くのはかなり抵抗があるからね。本当に恐ろしいことは、RLHFのNDAの中からは出てこないよ。
ゴブリンの疫病に対して人々が反射的に悲観的になれるっていうのは、すごく示唆に富んでると思う。まるでジトロンがやりそうなことだね。この話は素晴らしい。
完全な全体像はまだ掴めてないね。
このトピックについては必読だよ:www.anthropic.com/research/small-samples-poison たぶん、悪意のあるAIへの毒盛りの試みをあまり気づいてないのは、どんなキーワードを聞けばいいか知らないからだと思う(でも詐欺師たちは知ってて、悪用するだろうね)。
報酬システムの小さな設定ミスがこんなに目立つ不快感を引き起こすなら…その裏にはどんな危険が潜んでるんだろう。これは笑えないよ。
見つかったグレムリンの数だけ、見えないものがたくさんいる…
いいね、OpenAIが私のHackerNewsの投稿を記事で取り上げてくれた :) ちゃんとブログ記事を書いて説明してくれたのが嬉しい! https://news.ycombinator.com/item?id=47319285