アテンション残差
46日前原文(github.com)
概要
- **Attention Residuals (AttnRes)**は、Transformerの標準残差結合を置き換える新手法
- 各層が過去の表現を入力依存のAttentionで集約することが可能
- Block AttnResにより大規模モデルでも実用的なメモリ消費を実現
- 全体的な性能向上と、特に多段推論・コード生成で顕著な改善
- 学習安定性の向上や勾配分布の均一化も実現
Attention Residuals (AttnRes) 概要
- AttnResは、Transformerの標準的な残差結合を入力依存のAttention機構で拡張する手法
- 各層が過去すべての層の出力を重み付きで集約できる特徴
- 従来の残差結合は全層出力を固定重みで加算するため、層が深くなるほど寄与が希薄化
- PreNormにおける出力の発散問題や寄与の希薄化を緩和
- 各層でsoftmax attentionにより、前層出力を選択的に集約
- $\mathbf{h}l = \sum{i=0}^{l-1} \alpha_{i \to l} \cdot \mathbf{v}_i$
- $\alpha_{i \to l}$は各層ごとに学習される疑似query $\mathbf{w}_l$ で計算
Block AttnRes
-
Full AttnResは全層にattentionを適用するが、**O(Ld)**のメモリコストが課題
-
Block AttnResは層をN個のブロックに分割し、各ブロック内は従来残差、ブロック間のみattentionを適用
-
8ブロック程度でFull AttnResの大部分の恩恵を維持しつつ、実用的な計算コスト
-
PyTorch風の疑似コードで実装例を提示
- block_attn_res関数でブロック表現間のattention集約を実装
- forward関数で、各ブロック境界ごとに新ブロック開始・attention適用を制御
結果と評価
- Scaling Laws:AttnResは全計算予算においてベースラインを安定して上回る
- Block AttnResは、1.25倍の計算量で学習したベースラインと同等の損失
- 下流タスク性能(Kimi Linear 48B / 3B, 1.4Tトークン)
- MMLU:73.5 → 74.6
- GPQA-Diamond:36.9 → 44.4(+7.5, 多段推論)
- HumanEval:59.1 → 62.2(+3.1, コード生成)
- C-Eval:79.6 → 82.5
- 全カテゴリで一貫した性能向上を確認
- 学習ダイナミクス
- AttnResはPreNormの発散を抑制
- 出力の大きさが層を通じて安定
- 勾配ノルムも層ごとに均一化
論文・引用情報
- arXivプレプリント:arXiv:2603.15031
- 公式実装リポジトリ:Attention Residuals (AttnRes)
- 引用形式
- @misc{chen2026attnres, title = {Attention Residuals}, author = {Kimi Team and Chen, Guangyu ...}, year = {2026}, archiveprefix = {arXiv}, eprint = {2603.15031}, primaryclass = {cs.CL}
まとめ
- AttnResはTransformerの残差結合を根本的に拡張する新技術
- 大規模化・深層化でも安定した学習と性能向上を実現
- 実運用可能なBlock AttnResも提案し、幅広い応用が期待される