ハクソク

世界を動かす技術を、日本語で。

LLMアーキテクチャギャラリー

概要

  • The Big LLM Architecture ComparisonA Dream of Spring for Open-Weight LLMs から主要なアーキテクチャ図とファクトシートをまとめたページ
  • 最新の オープンウェイトLLM のアーキテクチャ比較に焦点
  • 各モデルの主要な設計ポイントや関連技術を箇条書きで解説
  • 問題発見時は Architecture Gallery issue tracker で報告可能
  • 高解像度ポスター版も Zazzle で注文可能

LLMアーキテクチャギャラリー:2024-2026年の主要モデル比較

  • Llama stack:Dense GQA with RoPE。OLMo 2との正規化・アテンション比較用リファレンス。パラメータ数8B、2024-04-18

    • 特徴:Pre-normベースライン、同規模のOLMo 2より幅広
    • 関連:クラシックMHA、正規化改良による学習安定性
  • DeepSeek V3:Dense MHA with QK-Norm。パラメータ数7B、2024-11-25

    • 特徴:Residual内post-norm採用、通常のpre-normと異なる
    • 関連:大規模オープンMoEモデルの先駆け
  • DeepSeek V3 MoE:Sparse MoE MLA。総パラメータ671B(アクティブ37B)、2024-12-26

    • 特徴:Dense prefix+共有エキスパート、推論時の効率性重視
    • 関連:推論最適化のためのMoE設計
  • DeepSeek Reasoning:Sparse MoE MLA。671B/37B、2025-01-20

    • 特徴:アーキテクチャはV3と同等、学習レシピが推論最適化型
  • Gemma 3 27B:Dense GQA with QK-Norm+5:1スライディング/グローバルアテンション、2025-03-11

    • 特徴:27B規模、ローカルアテンション強化、多言語語彙
  • Mistral 24B:Dense Standard GQA、2025-03-18

    • 特徴:レイテンシ重視、KVキャッシュ縮小、Gemma 3より層数少
  • Meta MoE:Sparse MoE GQA。400B/17B、2025-04-05

    • 特徴:Dense/MoEブロック交互、大型エキスパート採用
  • Qwen3 MoE 235B:Sparse MoE GQA with QK-Norm。235B/22B、2025-04-28

    • 特徴:共有エキスパート排除、サービング効率最適化
  • Qwen3 Dense 32B:Dense GQA with QK-Norm。32B、2025-04-28

    • 特徴:Qwenリファレンススタック、QK-Norm+8 KVヘッド
  • Qwen3 Dense 4B/8B:Dense GQA with QK-Norm。4B/8B、2025-04-28

    • 特徴:小型Denseスタック、151k語彙
  • NoPE実験モデル:Dense GQA with periodic NoPE。3B、2025-06-19

    • 特徴:4層ごとにRoPE省略、NoPEの効果検証
  • Moonshot 1T:Sparse MoE MLA。1T/32B、2025-07-10

    • 特徴:DeepSeek V3を拡張、エキスパート増加・MLAヘッド減少
  • Agent-oriented MoE:Sparse MoE GQA with QK-Norm。355B/32B、2025-07-28

    • 特徴:Dense3層→MoEルーティング、共有エキスパート維持
  • gpt-oss 120B/20B:Sparse MoE GQA with sliding-window/global。120B/20B、2025-08-04

    • 特徴:幅広・浅め設計、注意バイアス・sink機構
  • Qwen DeltaNet:Sparse hybrid Attention。80B/3B、2025-09-09

    • 特徴:DeltaNet+Gated Attention、262kコンテキスト
  • MiniMax 230B:Sparse MoE GQA with QK-Norm+部分RoPE。230B/10B、2025-10-23

    • 特徴:各層QK-Norm、MoEルーティング希薄
  • Kimi 48B:Sparse hybrid Attention。48B/3B、2025-10-30

    • 特徴:NoPE in MLA、チャネルワイズゲーティング
  • OLMo 3 32B:Dense GQA with QK-Norm+3:1スライディング/グローバル。32B、2025-11-20

    • 特徴:post-norm、YaRNをグローバル層みに適用
  • Allen AI透明モデル:Dense MHA with QK-Norm+3:1スライディング/グローバル。7B、2025-11-20

    • 特徴:post-norm、MHA維持
  • DeepSeek V4:Sparse MoE MLA with DeepSeek Sparse Attention。671B/37B、2025-12-01

    • 特徴:効率化進化、ベースレイアウト維持
  • Mistral 673B:Sparse MoE MLA。673B/41B、2025-12-02

    • 特徴:DeepSeek V3近似、大型エキスパート、マルチモーダル
  • NVIDIA Nano:Hybrid MoE Mostly Mamba-2+GQA。30B/3B、2025-12-04

    • 特徴:Mamba-2、MoEブロック交互、アテンション最小限
  • MoE 309B:Sparse MoE 5:1スライディング/グローバル。309B/15B、2025-12-16

    • 特徴:128トークンローカル、マルチトークン予測
  • GLM-4.5直前モデル:Sparse MoE GQA with QK-Norm。355B/32B、2025-12-22

    • 特徴:MLA/スパースアテンション前のベースライン
  • Arcee 400B:Sparse MoE GQA with gated+3:1スライディング/グローバル。400B/13B、2026-01-27

    • 特徴:QK-Norm、RoPE+NoPE、サンドイッチノーム、粗MoE
  • GLM-4.7:Sparse MoE MLA with DeepSeek Sparse Attention。744B/40B、2026-02-11

    • 特徴:GLM-4.7より大型、エキスパート増・層数減
  • Nano Super 120B:Hybrid MoE Mostly Mamba-2+GQA。120B/12B、2026-03-11

    • 特徴:潜在空間MoE・推論高速化
  • MTP-3 MoE:Sparse MoE GQA with 3:1スライディング。196B/11B、2026-02-01

    • 特徴:学習・推論ともMTP-3で高スループット
  • Llama 3.2派生3B:Dense GQA、2026-02-10

    • 特徴:入力埋め込みと出力層の非結合
  • Qwen3 230B Coder:Sparse MoE GQA with QK-Norm。230B/10B、2026-02-12

    • 特徴:クラシック構成、ハイブリッドアテンション非採用
  • Cohere 3.35B:Dense GQA with 3:1スライディング。3.35B、2026-02-13

    • 特徴:パラレルトランスフォーマーブロック、RoPE+NoPE混合
  • Lightning Attention 1T:Sparse hybrid Attention Lightning+MLA。1T/63B、2026-02-15

    • 特徴:7:1リニア/MLA比率、63Bアクティブ
  • Qwen Next 397B:Sparse hybrid Attention 3:1 Gated DeltaNet+Gated Attention。397B/17B、2026-02-16

    • 特徴:Qwen3-Nextから本流へ、512エキスパート
  • Sarvam MLA 105B/30B:Sparse MoE MLA/GQA with QK-Norm。105B/30B、2026-03-03

    • 特徴:大語彙、インド言語対応、MLA&GQA切替

問題報告・ポスター注文について

  • 誤記・リンク切れ・図の誤りArchitecture Gallery issue tracker で報告
  • 物理ポスター:Zazzleで注文可(14570×12490ピクセル、56MB PNG、182MP)
    • プレビューは低解像度だが、実際は高解像度
    • 品質未検証のため注文時は要注意

関連用語・技術

  • Dense Attention:全結合型アテンション
  • Sparse MoE:エキスパート選択型の疎構造
  • GQA/MHA/MLA:Grouped/Multi-Head/Multilayer Attention
  • QK-Norm/NoPE/RoPE:各種正規化・位置エンコーディング手法
  • DeltaNet/Lightning/Mamba-2:先進的アテンション・混合アーキテクチャ
  • YaRN/MTP/SwiGLU:学習安定化・高速化のための新規手法

まとめ

  • 2024-2026年 の主要LLMアーキテクチャの進化・比較
  • MoE(Mixture of Experts)Sparse Attentionの普及・多様化
  • 正規化・位置エンコーディング・アテンション設計の多彩な工夫
  • 効率・多言語・長文対応など、用途別の最適化傾向
  • オープンウェイトLLMの最新トレンド把握に最適なリスト

Hackerたちの意見

すごい!並び順はあるのかな?進化や革命の流れを理解できるといいな。家系図みたいな影響関係のレイアウトもあったら最高だね。サイズの違いを感じられるように、スケール感のあるビューもあったらいいな。
ここにあるよ:https://magazine.sebastianraschka.com/p/technical-deepseek これはdeepseekファミリーの進化を見せてる。
これはすごい!プレゼンテーションが素敵だね。Neural Network Zoo [1] を思い出すよ。あれもいろんなアーキテクチャのビジュアライゼーションが良かった。 [1] https://www.asimovinstitute.org/neural-network-zoo/
かっこいい!シェアしてくれてありがとう!こちらがズームできるバージョンの図だよ:https://zoomhub.net/LKrpB
図を描くのに使ったツールは何?
面白いコレクションだね。アーキテクチャの違いが、実際にモデル間のプロンプトパターンを見てみると驚くような形で現れるよ。長いコンテキストウィンドウは、単にもっと書けるだけじゃなくて、どんな入力構造が一番効果的かも変わるんだ。
ありがとう!(バイオ)統計学者として、"ニューラルネットワークは関数を近似する" から、機械学習の実践者がどのように実際のモデルを作り上げているかを高いレベルで理解するための「モジュラー」な方法がずっと欲しかったんだ。
エージェントやハーネスについても、こんなのが見れたら最高だね!
うわ、残念。ここをクリックしたら、LLMが高層ビルやダム、橋を設計してると思ったのに。ポップコーン持ってきたのに :(
これ、すごくいいね。セバスチャンのはいつも読む価値があるよ。彼の「Build an LLM From Scratch」って本も超おすすめ。あの本を通してみるまで、トランスフォーマーの仕組みをちゃんと理解してなかった気がする。LLMアーキテクチャギャラリーでは、モデル間のバリエーションを見るのが面白いけど、全体的に見ると、GPT-2以降の7年間でLLMアーキテクチャにはたくさんの改善があったけど、根本的な革新はなかったって感じ。今のオープンウェイトモデルは、ズームアウトするとGPT-2にすごく似てるし、結局はアテンション層とフィードフォワード層が積み重なってるだけ。言い換えれば、過去7年間で見られたLLMの能力の驚くべき向上は、ほとんどがスケールアップと、特にRLVRのような新しいトレーニング手法から来てる。これが、コーディングエージェントが昨年ほとんど機能しなかったのが驚くほど良くなった理由なんだ。アーキテクチャが面白くないわけじゃないし、改善が役立たないわけでもないけど、ちょっと驚きだね。もうこの段階では驚くべきことじゃないはずだけど、たぶん「ビター・レッスン」の一種なんだろうね。
競争力がある程度で機能した、構造的に最もシンプルなアーキテクチャって何?
「競争力」の定義が緩ければ、夕方に自分のマルコフ連鎖を書けるよ。トランスフォーマーモデルは、学習を段階的に進めなきゃならない多くの先行技術に依存してる。
競争力はアーキテクチャから来るんじゃなくて、スケールやデータ、ファインチューニングデータから来るんだ。この数年でアーキテクチャの革新はほとんどなくて、ほとんどの革新はトレーニングや推論を効率的にするためのもので、「根本的に賢くなる」ためのものじゃないんだよね。