クロードのサイクル [pdf]

47日前原文(www-cs-faculty.stanford.edu)

概要

入力された内容はPDFファイルのバイナリデータであり、テキスト情報ではありません。
このままでは内容の確認や翻訳は不可能です。
PDFファイルの中身を知りたい場合は、テキスト抽出が必要です。
テキストデータとして再度貼り付け直すことを推奨します。
必要に応じてPDFからテキストを抽出する方法も案内可能です。

PDFバイナリデータ入力時の注意

入力された情報は**%PDF-1.4** から始まるPDFファイルの中身
このままでは人間が読めるテキスト情報は含まれていない
PDFファイルにはテキスト・画像・レイアウト情報などがバイナリ形式で格納
テキスト化したい場合はPDFリーダーや専用ツールで抽出が必要
抽出したテキストを貼り付けていただければ、内容の要約や翻訳が可能

PDFからテキストを抽出する方法

Adobe AcrobatなどのPDFリーダーで「テキストをコピー」機能を利用
Google Driveにアップロード後、「Google ドキュメントで開く」で自動抽出
オンラインOCRサービス（例：Smallpdf, iLovePDF, PDF24等）で変換
コマンドラインツール（例：pdftotext, Poppler-utilsなど）でテキスト化
抽出したテキストを再度貼り付け直すことで、内容の要約・翻訳が可能

次のステップ案内

PDFファイルのテキスト化を先に実施
テキストが抽出できたらその内容を貼り付けてください
必要であれば、具体的な抽出手順やおすすめツールも案内可能
テキスト内容があれば、要約・翻訳・解説を迅速に提供
不明点があれば、どのような内容かや希望する作業をお伝えください

Hackerたちの意見

確率分布のRLスケーリングに適した問題の領域について考えるのは面白いね。前は、速い方法がなかったから（人間の認知に頼るしかなかった）問題を試すのが難しかったけど、今はそのパターンを確率分布に組み込んで、正しい「召喚呪文」を使えば誰でもアクセスできるようになった。専門家は、モデルを正しい条件付き分布に強制する方法を知っているから、こういうシステムをもっと生産的に使うだろうね。このことから浮かぶ疑問は、これらのモデルが科学の拡大する境界にどうやって追いつくのかってこと。もしRLが専門家の行動をモデルに取り入れるために必要なら、専門家がその境界をもっと早く押し広げるとどうなるの？2030年には、AnthropicはClaudeを「最新の状態」に保つために（a）固定モデルでの継続的学習（コンテキストウィンドウの拡大？難しそう）か（b）継続的なトレーニング（高コスト）なしでどうするつもりなんだろう。すごい時代だね。

└

ちょっと関連してるけど、オープンウェイトモデルって基本的にタイムカプセルみたいなもんだよね。このモデルは知識のカットオフポイントがあって、その時代に永遠に生き続ける感じ。

└

データ共有契約が許せば、今日の推論結果が明日のトレーニングデータになるかもね。モデルはすでに有望な思考の連鎖をラベリングするのが得意だと思うし。「無料」の推論を研究者に提供する代わりに、その推論のトレースが将来のトレーニングデータとして使われるっていう条件なら、全然あり得ると思う。

└

LORAを使えるよ。

└

> 専門家は自然にこれらのシステムをより生産的に使うだろう。なぜなら、彼らはモデルを正しい条件付き分布に強制する方法を知っているからだ。それが正しい技術を引き出すんだ。結局のところ、「どんな質問をするべきかを知っている」ってことに帰結する。

└

> 2030年、AnthropicはどのようにClaudeを「最新の状態」に保つつもりなのか。2030年には、AnthropicはClaudeが自分自身の進捗を「最新の状態」に保つことを期待している。ここでは半分冗談だよ。

└

トップ研究者たちの話を聞いたり読んだりして得た理解では、近い将来のモデルアーキテクチャはコンテキストウィンドウを劇的にスケールアップしようとするみたい。コンテキスト内学習がかなり強力だという一般的な信念があって、ウィンドウを拡大することで継続的学習に大きな利益が得られるかもしれない。最近のオープンウェイトモデルが、ハイブリッド注意アーキテクチャを通じてコンテキストウィンドウのメモリコストを劇的に削減できることを示しているから、そんなに難しくないみたい。Qwen3-next、Qwen3.5、Nemotron 3 Nanoはどれも素晴らしい例だよ。Nemotron 3 Nanoは、消費者向けハードウェアで100万トークンのコンテキストウィンドウを使って動かせるんだ。

LLMは、ここにいる多くの人が言ってるように、次に来る最も確率の高い単語を見つけるだけのものじゃないの？それが前提だとしたら、どう説明できるの？この問題解決の方法は「考える」って言えるの？

└

問題を解決するっていうのは、時には問題を新しい道を開くように言い換えることなんだよね。「惑星はなぜ太陽の周りを回るのか？」と「惑星が目に見えないリードで太陽に繋がれているのは、世界にどんな力が存在するからなのか？」（もちろんすごく単純化してるけど、言いたいことは分かるよね）。人間が正しい質問をするためにいるから、ただのLLMじゃないんだよね。さらに、いくつかの解決策は迷路を走るようなもの。間違った道や次に言うべき言葉を全部知っていて、正しいものを力技で見つけることができれば、全体像を見ずに迷路を走り抜けるマウスのように解決策を見つけるかもしれない。このことが「考える」って言えるかはもっと哲学的な問題だね。私にとっては、これが私たちがLLMよりもバイオコンピュータに近いことを示してると思う。

└

> LLMは、ここにいる多くの人が言ってるように、次に来る最も確率の高い単語を見つけるだけのものじゃないの？基本モデルはそうするように訓練されてるよ。もしウェブページに問題があって、その後に「答え: 」って書いてあれば、そのページに続くのは答えである可能性が統計的に非常に高い。基本モデルがテキストを予測するのが得意になりたいなら、一般的な質問の答えを学ぶのが良い戦略になるんだ。NNの訓練は、モデルがトレーニングセットを暗記するのではなく一般化するように促すから、これが多くの質問に答えられる計算パターンを学ぶインセンティブを生むんだ。ただし、実際に一般化できるかはケースバイケース。時には、トレーニングセットからそのままコピー＆ペーストされた入力が出てくることもあるけど、それは基本モデルの話。実際にチャットするLLMは、単純な統計分布に基づいて最も確率の高い単語を予測するわけじゃない。彼らはRLHFによって出力するように報酬を与えられた単語を出力するから、単にテキストを予測するのではなく、質問に答えるアシスタントとしての役割も果たすんだ。RLHFがあるからこそ、「あなたは絶対に正しい」とか、英語圏ではあまり使われない「掘り下げる」って言葉が多く使われる理由でもあるよ。

└

その説明は、基本モデルに対してはまあ妥当だね。でも、Opus 4.6みたいなのは、単に「最も可能性の高いトークンを予測する」以上の行動を教えるために、いろんなトレーニングが加わってるんだ。問題解決や良いチャットボットになるためのトレーニングも含まれてるしね。（†それにしても、ちょっと過小評価してるし、具体性が欠けてるよね。「最も可能性の高い単語」は、あるトレーニングデータセットに基づいて定義されるんだから。例えば、数学者が問題を解くのをトレーニングしたら、モデルは実際に数学者のように考えるのが上手くならないと、うまく予測できないよ。一般的に「次に何が起こるかを予測できること」は、知能の良い定義の一つだと思う。）

└

チェスボットをトレーニングして、標準的な代数記法を使って有効な手の順番やゲームを予測させることを想像してみて。素晴らしい！これでチェスのゲームを正しく構成できるようになったけど、白が勝つゲームを作るインセンティブは全くないし、次の手が「良い」ものになるとも限らない。じゃあ、目的を変えてみよう。「有効なゲームだけじゃなくて、その色が勝つための次の手を予測してほしい」と言って、それに向けてトレーニングしたら、より良い手を選ぶようになる（注：手はまだ有効だよ）。もっと洗練された方法で良い手を選ぶ最適化を想像できるかもしれない。目的関数を調整し続けて、初期モデルを基にしたモデルのプールをトレーニングして、それぞれが少し異なるカリキュラムを持つようにして、トーナメントを開いて勝ち残ったモデルを選ぶ。素晴らしい！これでスキルのあるチェスプレイモデルができた。単に有効なチェスプログラムを見つけるだけだとは言えなくなったね。なぜなら、目的関数はこのプロセスの中で何度も変わったから。これがLLMについて考えるべき方法なんだけど、目的関数が変わる方法はチェスボットよりもずっと複雑なんだ。だから、最初の質問に答えると、そういうことはしてないよ。それは最初の二世代のモデルに対しては正しかったけど、現代のLLMの「事前トレーニング」段階に関しては、むしろ正確じゃない。事前トレーニングは他の目的も与えるからね。まるで最初のステップ「有効なチェスの手を予測する」を「ストックフィッシュの出力を予測する」に入れ替えるようなものだよ。

└

そういう人たち、まだいるの？風車と戦ってるのは一人だけ知ってるよ。

└

うん、それが彼らのやってることだよ。でも、それが劇的な結果を生まないってわけじゃない。ピクセルを重ねることで美しい画像ができるのと同じだね。

└

> 次に来る最も可能性の高い単語を見つけるだけ Well、もし全ての状況でアインシュタインが次に言いそうな言葉を予測できるなら、いい位置にいると思うよ。この「最も可能性の高い」っていうのは、ただの手のひら返しだよ。数語のプロンプトでもユニークだから、単純に「最も可能性の高い」続きなんて存在しないんだ。何に基づいて可能性があるの？この機械が学ぶのは、知能が何をするかを予測することで、それは知能であることと同じなんだ。

└

ある意味ではそれはまだ正しいね。つまり、言葉は前の言葉に条件付けられた確率分布から取られている。でも、重要なのはその確率分布が単なるインターネット上の単語の確率の平均じゃないってこと。結局、この確率分布こそが知性の本質なんだと思う。LLMたちはそれを学んでいると思うよ。

└

それが多くの人が簡略化する方法だし、数学的にはそれが真実だと思う。私たちが気づいていないのは、それが実際にどれだけの距離を持っていくかってこと。「最もありそうな単語」って、全人類の知識が手の届くところにあるときはかなり強力なメカニズムなんだ。人々がそうやって「簡略化する」と言うのは、一般知能が次のトークン予測とは別のものであるという仮定をうまくまとめているからだと思う。AGIに到達したとは言ってないし、実際、まだだと思ってる。でも、その枠組みを使う人たちは、「技術的に正しい」と見せかけて、自分たちが完全には理解していない何かを軽視しているように感じる。全員がそうだとは言わないけど、多くの人がそうしているのに気づいた。

└

いや、IMOの金メダルパフォーマンスには良いシグナルがあるよ。これらのモデルは、実際に非自明な探索アルゴリズムの分散表現を学習してるんだ。数十年の改良を経ても、定理証明の分野はメダルすら取れなかったのに、8Bパラメータのモデルはそれをうまくやってる。注意機構っていう、強引な二次的アプローチと勾配降下法を組み合わせることで、アルゴリズムの非常に効率的な分散表現を発見してるんだよ。これを抽出して命令型プログラムにすることはできないと思うけどね。

AIで本当に難しい問題を解決し始めるまで、どれくらいの時間がかかるんだろう？「一般相対性理論と量子物理学をつなげる」っていう問題にAIを投げて、6ヶ月といくつかのデータセンターを与えたら、解決策が出てくるまでどれくらいかかるんだろう？

└

AGIがいつか来るとしたら、今のところAIは単なる統計的な機械で、こういう解決策は分布に基づいていて、論理や実際の知能はないんだ。

└

すごく長い時間がかかると思う。私たちの限界の一部は実験にあるから。理論的な不一致を説明するためには、十分な実験結果が必要だけど、今はそれを探ることができない。もっとそのフロンティアでの結果が得られたら、QFTとGRのためのほぼ独立した二つの限界を持つ理論を構築することになるだろう。AIに求めることは、今の人間が一生をかけても解決できないようなことになるだろうね。それを達成するには、ニュートンが天体とリンゴが同じ法則に従っていることに気づくようなことが必要だと思う。でも少なくともニュートンはリンゴを手に持つことができて、星を想像するだけで済んだ。

└

それらをつなげるのは簡単だよ。一つは交換の数学で、もう一つは状態機械のこと。もっと良い質問は、なぜ誰もハーバードのバランデスにもっと注目していないのかってことかも。彼はその質問の答えをしばらく前から発表しているんだ。マルコフ的な埋め込みを非マルコフ的なプロセスに密輸しようとするのをやめれば、現在の位置だけでは解決できない境界での無限大みたいな変なことは起こらなくなるよ。でも、LLMにプロンプトを投げ込んで、ハンドルを数十回引いてみるのもいいかもね。クローのスキルを一つ二つ作ってみたり。制約のない解決空間の探求は、確かに難しい問題を解決する方法だよ。ミレニアム賞の人たちにそれがどうなっているか聞いてみて :)

└

ちょっと待って、それはまだ先の話だよ。今ある最高の数学AIツール、アレテイアは、700の試みたオープンエルドシュ問題のうち13しか解けなかったし、そのうち自律的に解けたのはたった4つだけだよ。 https://arxiv.org/html/2601.22401v3 明らかに、これらのモデルは新しい問題にまだ苦労してるね。

DEK自身による魅力的なレポートだね。座って、読んで、消化して、LLMの助けなしで理解する時間だ。

└

自分でやる時間はまだないから、ちょっとしたTL;DRの穴を掘ってみたよ： https://ontouchstart.github.io/rabbit-holes/llm_rabbit_hole_...

自分の素朴な見方からすると、こういうLLMには大きな強みがあるように思う。一つ目：超人的な知識の広がり。二つ目：つながりを作ること。三つ目：疲れ知らずの試行錯誤。これら三つを組み合わせると、時々すごいものが生まれるんだ。P!=NPの証明は、人間が個々の知識の欠如やバイアスの傾向のために簡単には見えない微妙なつながりに結びついているかもしれない。

└

だからこそ、「LLMによる大規模監視」っていうのは怖いと思うんだよね。

└

もし私の理解が間違ってなければ、最後のポイントはLLM自体の特性じゃないんじゃない？境界が曖昧だからそう見えるだけで、実際は普通のプログラムループ（エージェント/オーケストレーター）がLLMを使って難しい部分をやってるだけなんだよね。

> クロード・シャノンの精神は、彼の名前がこういう進歩と結びついていることを知って誇りに思っているだろうね。クラウドに感謝！クロードがクロード・シャノンにちなんで名付けられたとは知らなかった！ https://en.wikipedia.org/wiki/Claude_Shannon

└

私はこれが https://en.wikipedia.org/wiki/Claude_(alligator) にちなんで名付けられたと思ってたんだけど。

└

NVIDIAとそのGPUアーキテクチャの命名規則について聞いたら驚くよ :)

> フィリップも、奇数のケースが解決した後にクロードに偶数のケースを続けるよう頼んだって言ってた。「でも、しばらくすると動かなくなったみたい。結局、探査プログラムを正しく書いて実行することすらできなくなって、すごく変だった。だから、検索をやめた。」最後の方の興味深い部分だね。彼らはclaude.aiかclaude codeを使ってたのかな？コンテキストが足りなくなって「ダムゾーン」に入っちゃったみたい。

└

このダムゾーンを定量化してユーザーに示せたらめっちゃクールだね。コパイロットには、コンテキスト使用率を示す小さな円グラフがあって、パーセンテージに応じて色が変わるのを見たことがある。これって、使われたトークンとコンテキストの可用性に関するすごく単純な指標なんじゃないかな。ダムゾーンに入ったことを示すメタデータがトークンと一緒にストリーミングされたり送信されたりすることはできるのかな。

オープンな問題に取り組むのは楽しそうだね。私は10年近く前に大学院の研究を発表したけど、今でもクロードと一緒にオープンな問題に挑戦することを妄想しちゃう。

クロード・モネの印象派技法がコーディングに応用されてると思った。

クヌースからこんな誤解を招くイントロを期待してなかった。まるでクロードがクヌースの数学問題を解いたみたいに読めるけど、実際にはクロードがいろんな例の解を生成して、クヌースがそれを手動で一般化して正式な証明にしたんだ。クロードのやったことは確かに役に立つけど、イントロで貢献の範囲をはっきりさせておいてほしかったな。

ハクソク

クロードのサイクル [pdf]

概要

PDFバイナリデータ入力時の注意

PDFからテキストを抽出する方法

次のステップ案内

Hackerたちの意見