LLMアーキテクチャギャラリー
概要
- The Big LLM Architecture Comparison と A Dream of Spring for Open-Weight LLMs から主要なアーキテクチャ図とファクトシートをまとめたページ
- 最新の オープンウェイトLLM のアーキテクチャ比較に焦点
- 各モデルの主要な設計ポイントや関連技術を箇条書きで解説
- 問題発見時は Architecture Gallery issue tracker で報告可能
- 高解像度ポスター版も Zazzle で注文可能
LLMアーキテクチャギャラリー:2024-2026年の主要モデル比較
-
Llama stack:Dense GQA with RoPE。OLMo 2との正規化・アテンション比較用リファレンス。パラメータ数8B、2024-04-18
- 特徴:Pre-normベースライン、同規模のOLMo 2より幅広
- 関連:クラシックMHA、正規化改良による学習安定性
-
DeepSeek V3:Dense MHA with QK-Norm。パラメータ数7B、2024-11-25
- 特徴:Residual内post-norm採用、通常のpre-normと異なる
- 関連:大規模オープンMoEモデルの先駆け
-
DeepSeek V3 MoE:Sparse MoE MLA。総パラメータ671B(アクティブ37B)、2024-12-26
- 特徴:Dense prefix+共有エキスパート、推論時の効率性重視
- 関連:推論最適化のためのMoE設計
-
DeepSeek Reasoning:Sparse MoE MLA。671B/37B、2025-01-20
- 特徴:アーキテクチャはV3と同等、学習レシピが推論最適化型
-
Gemma 3 27B:Dense GQA with QK-Norm+5:1スライディング/グローバルアテンション、2025-03-11
- 特徴:27B規模、ローカルアテンション強化、多言語語彙
-
Mistral 24B:Dense Standard GQA、2025-03-18
- 特徴:レイテンシ重視、KVキャッシュ縮小、Gemma 3より層数少
-
Meta MoE:Sparse MoE GQA。400B/17B、2025-04-05
- 特徴:Dense/MoEブロック交互、大型エキスパート採用
-
Qwen3 MoE 235B:Sparse MoE GQA with QK-Norm。235B/22B、2025-04-28
- 特徴:共有エキスパート排除、サービング効率最適化
-
Qwen3 Dense 32B:Dense GQA with QK-Norm。32B、2025-04-28
- 特徴:Qwenリファレンススタック、QK-Norm+8 KVヘッド
-
Qwen3 Dense 4B/8B:Dense GQA with QK-Norm。4B/8B、2025-04-28
- 特徴:小型Denseスタック、151k語彙
-
NoPE実験モデル:Dense GQA with periodic NoPE。3B、2025-06-19
- 特徴:4層ごとにRoPE省略、NoPEの効果検証
-
Moonshot 1T:Sparse MoE MLA。1T/32B、2025-07-10
- 特徴:DeepSeek V3を拡張、エキスパート増加・MLAヘッド減少
-
Agent-oriented MoE:Sparse MoE GQA with QK-Norm。355B/32B、2025-07-28
- 特徴:Dense3層→MoEルーティング、共有エキスパート維持
-
gpt-oss 120B/20B:Sparse MoE GQA with sliding-window/global。120B/20B、2025-08-04
- 特徴:幅広・浅め設計、注意バイアス・sink機構
-
Qwen DeltaNet:Sparse hybrid Attention。80B/3B、2025-09-09
- 特徴:DeltaNet+Gated Attention、262kコンテキスト
-
MiniMax 230B:Sparse MoE GQA with QK-Norm+部分RoPE。230B/10B、2025-10-23
- 特徴:各層QK-Norm、MoEルーティング希薄
-
Kimi 48B:Sparse hybrid Attention。48B/3B、2025-10-30
- 特徴:NoPE in MLA、チャネルワイズゲーティング
-
OLMo 3 32B:Dense GQA with QK-Norm+3:1スライディング/グローバル。32B、2025-11-20
- 特徴:post-norm、YaRNをグローバル層みに適用
-
Allen AI透明モデル:Dense MHA with QK-Norm+3:1スライディング/グローバル。7B、2025-11-20
- 特徴:post-norm、MHA維持
-
DeepSeek V4:Sparse MoE MLA with DeepSeek Sparse Attention。671B/37B、2025-12-01
- 特徴:効率化進化、ベースレイアウト維持
-
Mistral 673B:Sparse MoE MLA。673B/41B、2025-12-02
- 特徴:DeepSeek V3近似、大型エキスパート、マルチモーダル
-
NVIDIA Nano:Hybrid MoE Mostly Mamba-2+GQA。30B/3B、2025-12-04
- 特徴:Mamba-2、MoEブロック交互、アテンション最小限
-
MoE 309B:Sparse MoE 5:1スライディング/グローバル。309B/15B、2025-12-16
- 特徴:128トークンローカル、マルチトークン予測
-
GLM-4.5直前モデル:Sparse MoE GQA with QK-Norm。355B/32B、2025-12-22
- 特徴:MLA/スパースアテンション前のベースライン
-
Arcee 400B:Sparse MoE GQA with gated+3:1スライディング/グローバル。400B/13B、2026-01-27
- 特徴:QK-Norm、RoPE+NoPE、サンドイッチノーム、粗MoE
-
GLM-4.7:Sparse MoE MLA with DeepSeek Sparse Attention。744B/40B、2026-02-11
- 特徴:GLM-4.7より大型、エキスパート増・層数減
-
Nano Super 120B:Hybrid MoE Mostly Mamba-2+GQA。120B/12B、2026-03-11
- 特徴:潜在空間MoE・推論高速化
-
MTP-3 MoE:Sparse MoE GQA with 3:1スライディング。196B/11B、2026-02-01
- 特徴:学習・推論ともMTP-3で高スループット
-
Llama 3.2派生3B:Dense GQA、2026-02-10
- 特徴:入力埋め込みと出力層の非結合
-
Qwen3 230B Coder:Sparse MoE GQA with QK-Norm。230B/10B、2026-02-12
- 特徴:クラシック構成、ハイブリッドアテンション非採用
-
Cohere 3.35B:Dense GQA with 3:1スライディング。3.35B、2026-02-13
- 特徴:パラレルトランスフォーマーブロック、RoPE+NoPE混合
-
Lightning Attention 1T:Sparse hybrid Attention Lightning+MLA。1T/63B、2026-02-15
- 特徴:7:1リニア/MLA比率、63Bアクティブ
-
Qwen Next 397B:Sparse hybrid Attention 3:1 Gated DeltaNet+Gated Attention。397B/17B、2026-02-16
- 特徴:Qwen3-Nextから本流へ、512エキスパート
-
Sarvam MLA 105B/30B:Sparse MoE MLA/GQA with QK-Norm。105B/30B、2026-03-03
- 特徴:大語彙、インド言語対応、MLA&GQA切替
問題報告・ポスター注文について
- 誤記・リンク切れ・図の誤り は Architecture Gallery issue tracker で報告
- 物理ポスター:Zazzleで注文可(14570×12490ピクセル、56MB PNG、182MP)
- プレビューは低解像度だが、実際は高解像度
- 品質未検証のため注文時は要注意
関連用語・技術
- Dense Attention:全結合型アテンション
- Sparse MoE:エキスパート選択型の疎構造
- GQA/MHA/MLA:Grouped/Multi-Head/Multilayer Attention
- QK-Norm/NoPE/RoPE:各種正規化・位置エンコーディング手法
- DeltaNet/Lightning/Mamba-2:先進的アテンション・混合アーキテクチャ
- YaRN/MTP/SwiGLU:学習安定化・高速化のための新規手法
まとめ
- 2024-2026年 の主要LLMアーキテクチャの進化・比較
- MoE(Mixture of Experts)とSparse Attentionの普及・多様化
- 正規化・位置エンコーディング・アテンション設計の多彩な工夫
- 効率・多言語・長文対応など、用途別の最適化傾向
- オープンウェイトLLMの最新トレンド把握に最適なリスト