世界を動かす技術を、日本語で。

深層学習の理論

概要

  • Borgesの短編「Funes the Memorious」に登場するFunesは、全てを記憶する能力を持つが、抽象化や思考ができない存在。
  • 深層学習理論はFunesのような「全てを記憶する」方向へ進化しつつあり、従来理論では説明できない現象が多発。
  • 新しい理論では、パラメータ空間ではなく出力空間でネットワークを動的システムとして解析。
  • この理論は、ベニンオーバーフィッティングやダブルディセント、グロッキングなど現代深層学習の主要な謎を統一的に説明。
  • 今後の研究では、より効率的な学習手法や真の汎化能力の獲得、モデル設計の根本的見直しが期待される。

Funesの記憶と抽象化の不可能性

  • Borgesの短編「Funes the Memorious」に登場するFunesは、 落馬事故 をきっかけに 全てを記憶する能力 を獲得。
  • すべての葉、すべての水面の揺れ を瞬間ごとに記憶する、 完全な経験主義者 の体現。
  • その代償として、 抽象化や一般化が不可能 となり、思考ができなくなる。
  • Funesは、 異なる視点や時間で見た犬を「同じ犬」と認識できない というエピソードで象徴される。
  • 思考とは差異を無視し、抽象化すること であり、 全てを記憶することは思考の妨げ となる。

Lockeの言語と深層学習理論の現状

  • 17世紀の哲学者Lockeは、 全ての個別事物に固有名を与える言語 を想定。
  • Funesはこのような言語を考案したが、 それすらも「一般的すぎる」と感じ却下
  • 現代の深層学習理論 は、Lockeの言語を実現し、さらにFunesの記憶力に近づきつつある。
  • パラメータ数、データ量、ネットワーク深度、計算量 の増大による「全てを記憶する」学習。
  • 研究者ごとに異なる理論的枠組み (Uniform convergence, Optimization, NTK, PAC-Bayes, Stability, Mean-fieldなど)が乱立し、 理論的な統一がない現状

深層学習の現象と古典理論との乖離

  • 古典的な統計的学習理論では、 バイアス-バリアンストレードオフ が前提。
    • モデルが単純すぎるとアンダーフィット複雑すぎるとオーバーフィット
  • 深層ニューラルネットワーク は、 パラメータ数がデータ数を大きく上回る 「過剰パラメータ化」状態。
  • 訓練データを完全に記憶(補間)できる のに、 テスト誤差が低い(ベニンオーバーフィッティング) という現象。
  • バイアス-バリアンストレードオフのU字型カーブ ではなく、 ダブルディセント と呼ばれる現象が観測される。
  • 勾配降下法 は、無限にある補間解の中から 一般化する解(低ノルム・低ランク) を自然に選択する(暗黙のバイアス)。
  • グロッキング 現象:訓練セットをまず記憶し、その後に突然一般化が始まる。

新理論:出力空間での動的システム解析

  • 従来の理論は、 パラメータ空間での複雑さ に注目。
  • 新理論では、 出力空間での動的システムとしてネットワーク全体を解析
  • 全訓練出力をベクトル化 し、 ヤコビアン(J_S) でパラメータと出力の関係を捉える。
  • 経験的ニューラルタンジェントカーネル(eNTK) が学習ダイナミクスの中心的役割を果たす。
    • 各訓練点間での勾配の影響度 を行列表現で把握。
  • 損失関数の減少速度 はカーネルのスペクトル構造で決定。
    • 大きな固有値方向は早く学習され、小さな固有値方向は遅い
  • カーネルの時間積分((\mathcal{W}_S)) によって、 学習中にどの方向で損失が減少したか(信号チャネル)と、何も減少しなかった方向(リザーバー) を区別。
  • リザーバーに入ったノイズはテスト時に影響しない (test-invisible)。

現象の統一的説明

  • ベニンオーバーフィッティング :ノイズがリザーバーに閉じ込められ、テスト時に見えないため問題にならない。
  • ダブルディセント :ノイズが信号チャネルとリザーバー間を移動し、補間閾値で一時的にテスト誤差が上昇、その後再びリザーバーに吸収される。
  • 暗黙のバイアス :カーネルのスペクトルに沿って、主要な固有値方向から順に信号チャネルが埋まっていく。
  • グロッキング :学習初期にノイズ方向が先に埋まり、後から信号方向が信号チャネルに移動して一般化が始まる。

実践的応用と今後の展望

  • 新理論に基づき、パラメータの更新可否を一行で判定できるアルゴリズム を提案。
    • バッチ内の信号がノイズを上回るパラメータのみ更新
    • Adamの一行変更でグロッキングを5倍高速化、PINNやDPOファインチューニングにも有効
  • 出力空間での学習ダイナミクスの厳密な解明 により、 最終状態への解析的ジャンプ真の汎化能力への直接的アプローチ が可能となる。
  • 過剰パラメータ化の本質が「テスト不可視リザーバーの拡大」にある と理解され、 モデル設計の根本的見直し への道が開かれる。

まとめ

  • Funesの寓話は、 全てを記憶することの限界と抽象化・一般化の重要性 を示唆。
  • 現代深層学習理論の主要な謎は、 出力空間でのカーネルダイナミクス として統一的に説明可能。
  • 今後は、 より効率的な学習法、真の汎化、モデル設計の新パラダイム が期待される。

Hackerたちの意見

これは面白い数学的枠組みだけど、投稿のタイトルはちょっと大げさかも。よく考えるんだけど、「深層学習の理論」って、簡潔に表現できて、(1) スケーリング法則と (2) 勾配降下法の驚くべき信頼性を予測できるものが存在するのかな。ここで「予測する」と言ったのは、「説明する」じゃなくてね。まだケプラーの時代にいるような気がする、ニュートンじゃなくて。

わからないな… 勾配降下法は、実際にはたくさんのトリックが必要で、信頼性があるのはそのおかげだと思う。良い初期化を知ることはスタート地点だけど、再帰的接続やバッチ/レイヤー正規化があれば、信頼性がかなり向上するよ。

でも、投稿のタイトルはちょっと大げさかもね。本当に? ボルヘスの逸話から始まるエッセイが壮大すぎるって。ああ、なんて前例のないことなんだ!

このエッセイは、「深層学習の科学的理論が存在するだろう」という論文に関連しているみたいだね。[1] 最近ここで話題になったし。[1] https://arxiv.org/pdf/2604.21691 [2] https://news.ycombinator.com/item?id=47893779

関連する論文:「深層学習における一般化の理論」。 https://arxiv.org/abs/2605.01172

この論文のカーネルKを、レンダリング方程式のBRDFとして解釈したよ。光輸送シミュレーションや、実際のところはどんな積分微分方程式システムでも使われるおなじみの拡散プロセスと一緒にね。https://en.wikipedia.org/wiki/Neural_tangent_kernel を参考にすれば、この論文も少し勉強すれば理解できるかも。 [0] https://en.wikipedia.org/wiki/Rendering_equation

うーん、これは深層ニューラルネットワークが何をしているかを再説明しているだけで、実際に何が起こるのかを説明しているわけじゃないと思う。確かに「統一」しているけど、もう大体の統一理論には飽きてきたかな。すべてがベイズ的で、すべてがグラフや群、あるいは他の何かおしゃれな幾何学的構造で、すべてがカテゴリになってる。結局、最も良い枠組みは、実践者がモデルを望む結果に向けて操作できるように、何が起こっているのかを説明するのに十分役立つものだと思う。つまり、どこに調整する部分があるの? 彼らが共有しているツールは面白そうだけど、ラベルに適用されるノイズの異なるレベルで何が起こるのか試してみたいな。

本当の理論は、これまで見たことのない現象を予測するべきだよね。もうこの4部構成の分類は知ってるし。

今はまだ、部屋サイズのコンピュータしか理解できない科学者たちの時代にいる感じだね。オタク向けのノブやボタンが少しずつ出てきてるけど。

面白い読み物だね。グロッキングの論文が出たときのことを覚えてるけど、実際のデータであのクラシックなグロッキング損失曲線を自分の手で見たことはないな。他の人たちは実践でもっとよく見たことあるのかな?

純粋な理解を得るには、トレーニングデータ全体を簡単に記憶できるくらい大きなモデルが必要で、その後も長い間トレーニングを続ける必要があるよ。実際には、データの一部で理解できるような、もっと現実的なサイズのモデルを使うことになると思うけど、そんなに明らかに理解できるわけじゃないんだよね。

つまり、パラメータのバッチ信号がそのleave-one-outノイズを超えたら、更新する;そうでなければスキップする。これはAdamに対する一行の変更で、グロッキングを5倍速くし、PINNsの記憶を抑え、DPOのファインチューニングを改善し、バリデーションセットの必要を完全に排除する。上の文で表現された式を理解している人はいる?これは単に「複数のバッチ/サンプルで高い勾配/損失の分散を持つパラメータの更新をスキップする」というクラシックなやつなの?

「高い勾配/損失の分散を持つパラメータを複数のバッチ/サンプルでスキップする」って、何がクラシックなの? このヒューリスティックを使った特定のアルゴリズムがあるの?

論文へのリンク: https://arxiv.org/pdf/2605.01172 これも素晴らしい読み物で、ディープラーニングへの応用がいい感じ。たくさんのクロスマッピングや、名前が違う古い内容を強調していて、そういうバックグラウンドを持つ人には注目されるべきだと思う。「累積散逸グラミアン」Ws = 観測可能グラミアン(制御理論から)。例えば、スペクトルカットオフはモデル削減からのハンケル特異値の切り捨てとぴったり一致する。「信号チャネル」/「リザーバー」は制御可能/観測可能対制御不可能/観測不可能な部分空間。アダムジャン-アロフ-クライン(AAK)理論を使うと、最適な非線形縮小モデルが得られて、最適な圧縮問題に答えることができる。「ドリフト-拡散分離」はフレイドリン-ウェンツェルの大偏差理論。FW作用から「グロッキング」の時間を予測できるよ。「ポピュレーション-リスクゲート」は量子弱い値/ポスト選択(アハロノフ)。だから、フォローアップの問題に対して、制御理論はモデル圧縮のための切り捨て誤差の境界を提供する。大偏差理論はグロッキング時間の予測を与える。量子測定理論は虚数の前提条件を提供する。情報幾何学はゲートの最適な連続緩和を与える。新しいやり方の素晴らしい示唆がここで形式化されているのがいいね。古い: アーキテクチャを選んで、一般化することを願う 新しい: 観測可能グラミアンのランクを最大化するようにアーキテクチャを設計する(正直、ここでは制御理論からたくさん引っ張ってる)。古い: バリデーションセットを使って過学習を検出する 新しい: トレーニング中にλ(Ws)スペクトルを監視する; バリデーションは不要。古い: 大きさに基づいて事後的にプルーニングする 新しい: ker(Ws)メンバーシップに基づいてトレーニング中にプルーニングする。古い: 固定学習率 新しい: スペクトル学習率。

この正確な特徴付けが可能なのは、出力空間において、トレーニングダイナミクスが実現されたパスに沿った局所的な線形微分方程式を通じて理解できるからだよ。進化するカーネルの支配的な固有モードが指数関数的に早く平衡するんだ。オプティマイザーをこれらの解決された方向にゆっくり進ませるのは非常に非効率的で、最終的なネットワーク状態に解析的にジャンプする道を示唆している。でも、どれくらいの計算コストがかかるの?

これ、素晴らしい仕事だね。ウェルチラボの動画で学んだことを思い出させるよ。この分野について追いつくために割り当てている時間(残念ながら少なすぎる)を考えると、ウェルチラボが何か発表するまで待つことにするよ。

一年前の「Deep Learning is Not So Mysterious or Different」っていう論文を強く思い出したわ。