LLMアーキテクチャギャラリー

45日前原文(sebastianraschka.com)

概要

The Big LLM Architecture Comparison と A Dream of Spring for Open-Weight LLMs から主要なアーキテクチャ図とファクトシートをまとめたページ
最新の オープンウェイトLLM のアーキテクチャ比較に焦点
各モデルの主要な設計ポイントや関連技術を箇条書きで解説
問題発見時は Architecture Gallery issue tracker で報告可能
高解像度ポスター版も Zazzle で注文可能

LLMアーキテクチャギャラリー：2024-2026年の主要モデル比較

Llama stack：Dense GQA with RoPE。OLMo 2との正規化・アテンション比較用リファレンス。パラメータ数8B、2024-04-18
- 特徴：Pre-normベースライン、同規模のOLMo 2より幅広
- 関連：クラシックMHA、正規化改良による学習安定性
DeepSeek V3：Dense MHA with QK-Norm。パラメータ数7B、2024-11-25
- 特徴：Residual内post-norm採用、通常のpre-normと異なる
- 関連：大規模オープンMoEモデルの先駆け
DeepSeek V3 MoE：Sparse MoE MLA。総パラメータ671B（アクティブ37B）、2024-12-26
- 特徴：Dense prefix＋共有エキスパート、推論時の効率性重視
- 関連：推論最適化のためのMoE設計
DeepSeek Reasoning：Sparse MoE MLA。671B/37B、2025-01-20
- 特徴：アーキテクチャはV3と同等、学習レシピが推論最適化型
Gemma 3 27B：Dense GQA with QK-Norm＋5:1スライディング/グローバルアテンション、2025-03-11
- 特徴：27B規模、ローカルアテンション強化、多言語語彙
Mistral 24B：Dense Standard GQA、2025-03-18
- 特徴：レイテンシ重視、KVキャッシュ縮小、Gemma 3より層数少
Meta MoE：Sparse MoE GQA。400B/17B、2025-04-05
- 特徴：Dense/MoEブロック交互、大型エキスパート採用
Qwen3 MoE 235B：Sparse MoE GQA with QK-Norm。235B/22B、2025-04-28
- 特徴：共有エキスパート排除、サービング効率最適化
Qwen3 Dense 32B：Dense GQA with QK-Norm。32B、2025-04-28
- 特徴：Qwenリファレンススタック、QK-Norm＋8 KVヘッド
Qwen3 Dense 4B/8B：Dense GQA with QK-Norm。4B/8B、2025-04-28
- 特徴：小型Denseスタック、151k語彙
NoPE実験モデル：Dense GQA with periodic NoPE。3B、2025-06-19
- 特徴：4層ごとにRoPE省略、NoPEの効果検証
Moonshot 1T：Sparse MoE MLA。1T/32B、2025-07-10
- 特徴：DeepSeek V3を拡張、エキスパート増加・MLAヘッド減少
Agent-oriented MoE：Sparse MoE GQA with QK-Norm。355B/32B、2025-07-28
- 特徴：Dense3層→MoEルーティング、共有エキスパート維持
gpt-oss 120B/20B：Sparse MoE GQA with sliding-window/global。120B/20B、2025-08-04
- 特徴：幅広・浅め設計、注意バイアス・sink機構
Qwen DeltaNet：Sparse hybrid Attention。80B/3B、2025-09-09
- 特徴：DeltaNet＋Gated Attention、262kコンテキスト
MiniMax 230B：Sparse MoE GQA with QK-Norm＋部分RoPE。230B/10B、2025-10-23
- 特徴：各層QK-Norm、MoEルーティング希薄
Kimi 48B：Sparse hybrid Attention。48B/3B、2025-10-30
- 特徴：NoPE in MLA、チャネルワイズゲーティング
OLMo 3 32B：Dense GQA with QK-Norm＋3:1スライディング/グローバル。32B、2025-11-20
- 特徴：post-norm、YaRNをグローバル層みに適用
Allen AI透明モデル：Dense MHA with QK-Norm＋3:1スライディング/グローバル。7B、2025-11-20
- 特徴：post-norm、MHA維持
DeepSeek V4：Sparse MoE MLA with DeepSeek Sparse Attention。671B/37B、2025-12-01
- 特徴：効率化進化、ベースレイアウト維持
Mistral 673B：Sparse MoE MLA。673B/41B、2025-12-02
- 特徴：DeepSeek V3近似、大型エキスパート、マルチモーダル
NVIDIA Nano：Hybrid MoE Mostly Mamba-2＋GQA。30B/3B、2025-12-04
- 特徴：Mamba-2、MoEブロック交互、アテンション最小限
MoE 309B：Sparse MoE 5:1スライディング/グローバル。309B/15B、2025-12-16
- 特徴：128トークンローカル、マルチトークン予測
GLM-4.5直前モデル：Sparse MoE GQA with QK-Norm。355B/32B、2025-12-22
- 特徴：MLA/スパースアテンション前のベースライン
Arcee 400B：Sparse MoE GQA with gated＋3:1スライディング/グローバル。400B/13B、2026-01-27
- 特徴：QK-Norm、RoPE＋NoPE、サンドイッチノーム、粗MoE
GLM-4.7：Sparse MoE MLA with DeepSeek Sparse Attention。744B/40B、2026-02-11
- 特徴：GLM-4.7より大型、エキスパート増・層数減
Nano Super 120B：Hybrid MoE Mostly Mamba-2＋GQA。120B/12B、2026-03-11
- 特徴：潜在空間MoE・推論高速化
MTP-3 MoE：Sparse MoE GQA with 3:1スライディング。196B/11B、2026-02-01
- 特徴：学習・推論ともMTP-3で高スループット
Llama 3.2派生3B：Dense GQA、2026-02-10
- 特徴：入力埋め込みと出力層の非結合
Qwen3 230B Coder：Sparse MoE GQA with QK-Norm。230B/10B、2026-02-12
- 特徴：クラシック構成、ハイブリッドアテンション非採用
Cohere 3.35B：Dense GQA with 3:1スライディング。3.35B、2026-02-13
- 特徴：パラレルトランスフォーマーブロック、RoPE＋NoPE混合
Lightning Attention 1T：Sparse hybrid Attention Lightning＋MLA。1T/63B、2026-02-15
- 特徴：7:1リニア/MLA比率、63Bアクティブ
Qwen Next 397B：Sparse hybrid Attention 3:1 Gated DeltaNet＋Gated Attention。397B/17B、2026-02-16
- 特徴：Qwen3-Nextから本流へ、512エキスパート
Sarvam MLA 105B/30B：Sparse MoE MLA/GQA with QK-Norm。105B/30B、2026-03-03
- 特徴：大語彙、インド言語対応、MLA＆GQA切替

問題報告・ポスター注文について

誤記・リンク切れ・図の誤り は Architecture Gallery issue tracker で報告
物理ポスター：Zazzleで注文可（14570×12490ピクセル、56MB PNG、182MP）
- プレビューは低解像度だが、実際は高解像度
- 品質未検証のため注文時は要注意

まとめ

2024-2026年 の主要LLMアーキテクチャの進化・比較
MoE（Mixture of Experts）とSparse Attentionの普及・多様化
正規化・位置エンコーディング・アテンション設計の多彩な工夫
効率・多言語・長文対応など、用途別の最適化傾向
オープンウェイトLLMの最新トレンド把握に最適なリスト

Hackerたちの意見

すごい！並び順はあるのかな？進化や革命の流れを理解できるといいな。家系図みたいな影響関係のレイアウトもあったら最高だね。サイズの違いを感じられるように、スケール感のあるビューもあったらいいな。

└

ここにあるよ：https://magazine.sebastianraschka.com/p/technical-deepseek これはdeepseekファミリーの進化を見せてる。

これはすごい！プレゼンテーションが素敵だね。Neural Network Zoo [1] を思い出すよ。あれもいろんなアーキテクチャのビジュアライゼーションが良かった。 [1] https://www.asimovinstitute.org/neural-network-zoo/

かっこいい！シェアしてくれてありがとう！こちらがズームできるバージョンの図だよ：https://zoomhub.net/LKrpB

図を描くのに使ったツールは何？

面白いコレクションだね。アーキテクチャの違いが、実際にモデル間のプロンプトパターンを見てみると驚くような形で現れるよ。長いコンテキストウィンドウは、単にもっと書けるだけじゃなくて、どんな入力構造が一番効果的かも変わるんだ。

ありがとう！(バイオ)統計学者として、"ニューラルネットワークは関数を近似する" から、機械学習の実践者がどのように実際のモデルを作り上げているかを高いレベルで理解するための「モジュラー」な方法がずっと欲しかったんだ。

エージェントやハーネスについても、こんなのが見れたら最高だね！

うわ、残念。ここをクリックしたら、LLMが高層ビルやダム、橋を設計してると思ったのに。ポップコーン持ってきたのに :(

これ、すごくいいね。セバスチャンのはいつも読む価値があるよ。彼の「Build an LLM From Scratch」って本も超おすすめ。あの本を通してみるまで、トランスフォーマーの仕組みをちゃんと理解してなかった気がする。LLMアーキテクチャギャラリーでは、モデル間のバリエーションを見るのが面白いけど、全体的に見ると、GPT-2以降の7年間でLLMアーキテクチャにはたくさんの改善があったけど、根本的な革新はなかったって感じ。今のオープンウェイトモデルは、ズームアウトするとGPT-2にすごく似てるし、結局はアテンション層とフィードフォワード層が積み重なってるだけ。言い換えれば、過去7年間で見られたLLMの能力の驚くべき向上は、ほとんどがスケールアップと、特にRLVRのような新しいトレーニング手法から来てる。これが、コーディングエージェントが昨年ほとんど機能しなかったのが驚くほど良くなった理由なんだ。アーキテクチャが面白くないわけじゃないし、改善が役立たないわけでもないけど、ちょっと驚きだね。もうこの段階では驚くべきことじゃないはずだけど、たぶん「ビター・レッスン」の一種なんだろうね。

競争力がある程度で機能した、構造的に最もシンプルなアーキテクチャって何？

└

「競争力」の定義が緩ければ、夕方に自分のマルコフ連鎖を書けるよ。トランスフォーマーモデルは、学習を段階的に進めなきゃならない多くの先行技術に依存してる。

└

競争力はアーキテクチャから来るんじゃなくて、スケールやデータ、ファインチューニングデータから来るんだ。この数年でアーキテクチャの革新はほとんどなくて、ほとんどの革新はトレーニングや推論を効率的にするためのもので、「根本的に賢くなる」ためのものじゃないんだよね。

ハクソク

LLMアーキテクチャギャラリー

概要