> Opus 4.7のトークナイザーは、Opus 4.6の1.46倍のトークンを使ってるんだ。面白いね。残念ながらAnthropicは実際のトークナイザーを公開してないけど、私の推測では、モデルのパフォーマンスを上げるために、トークナイザーをより意味的に意識させたのかもしれない。どういうことかというと、例を挙げるね。(これが彼らが実際にやったこととは限らないけど、アイデアを説明するために。)gpt-oss-120bのトークナイザーを例に取ってみよう。いくつかのテキストがどうトークン化されるか見てみるよ(トークンを区切るために「|」を使うね):Kill -> [70074] Killed -> [192794] kill -> [25752] k|illed -> [74, 7905] kill -> [15874] killed -> [17372] 同じ単語(Kill, kill, kill)でも、大文字小文字や前にスペースがあるかどうかで、3つの異なるトークンができちゃうし、過去形だと別のトークンになる。これはテキストをエンコードする理想的な方法とは言えないよね。モデルは、これらのトークンが関連していることを力任せに学ばなきゃいけないから。じゃあ、もしこれをこうエンコードしたらどうなるか想像してみて:|kill |kill|ed kill| kill|ed |kill |kill|ed これだとずっと分かりやすいよね。モデルは「」が何か、「kill」が何か、「」が何か、そして「ed」(過去形の接尾辞)が何かを学べばいいだけで、それを組み合わせることができる。欠点は、トークンの使用量が増えることだけど、これが彼らがやったことなら驚かないな。もしくは、私の推測その2として、トークナイザーを完全に取り除いて、小さなトレーニングモデル(バイト潜在トランスフォーマーみたいな)に置き換えて、単にトークン数を「エミュレート」してるのかも。