ArmのCortex X925: デスクトップ性能への到達
概要
- ArmのCortex X925がついにAMD Zen 5やIntel Lion Coveと同等のデスクトップ性能を実現
- Nvidia GB10チップに10基のX925コアを搭載し、Dell Pro Maxシリーズなどで採用
- X925は高性能重視設計で、広いアウトオブオーダー実行ウィンドウや大容量キャッシュを備える
- 分岐予測やフロントエンドのスループットもZen 5と同等かそれ以上
- ベクター演算やレジスタリネームなど、最新x86コアと肩を並べる設計
Arm Cortex X925のデスクトップ性能到達
- デスクトップ/ラップトップ用途で求められる高いシングルスレッド性能
- これまでAMDやIntelが大規模アウトオブオーダーコアで市場をリード
- Armは低消費電力・小面積を重視してきたが、近年は高性能分野に進出
- 2012年のCortex A57登場時には夢物語だったx86同等性能が、Cortex X925で現実に
- Nvidia GB10はX925コアを10基搭載し、最大4GHz動作
- Dell Pro Maxシリーズでの採用事例、実機検証が可能に
Cortex X925のマイクロアーキテクチャ
- 10ワイド設計で極限まで性能追求
- リオーダーウィンドウはAMD Zen 5を上回る容量
- L2キャッシュはIntel P-Core並みの容量(2MBまたは3MB選択可)
- L1キャッシュは64KB固定、全キャッシュでECC/パリティ保護
- DSU-120インターコネクト経由で最大32MBのL3キャッシュ
- 物理アドレス空間40bit対応、サーバー用途には非対応
分岐予測とフロントエンド性能
- 高度な分岐予測器で長いパターンも認識可能
- BTB容量はZen 5に迫る大規模設計(最大16384分岐追跡)
- リターンスタックも29エントリと十分な容量
- SPEC CPU2017での分岐予測精度はZen 5並み、場合によっては上回る
デコード・フロントエンド
- MOPキャッシュ非搭載、デコードコストはプレデコードや低クロック動作で吸収
- L1Iキャッシュは76ビット粒度でデータ格納
- フロントエンドスループットは最大10命令/サイクル(2MBページ利用時)
- Zen 5やLion Coveよりやや低い実効スループットだが、クロック差が要因
アウトオブオーダー実行・リネーム
- リオーダーバッファ容量は実測で約525命令、Lion Cove(576)やZen 5(448)に匹敵
- レジスタファイルやメモリ順序キューもx86大コア並みの規模
- 128ビットベクター演算はx86大コアよりやや狭い
整数・浮動小数点ユニット
- 整数側は4つのスケジューラ+8 ALUポート構成、対称性重視
- 整数madd命令は2つのマイクロオペレーションに分割
- 浮動小数点側は6本のパイプ、ベクターFMAや整数演算も全パイプ対応
- FPスケジューラは1本あたり約53エントリと大容量
Armコアの進化と今後の展望
- Cortex X925は消費電力や面積の制約を抑え、純粋に性能を追求
- AMDやIntelの最新x86大コアと実用レベルで競合可能な設計
- デスクトップ/ラップトップ市場におけるArmの存在感拡大
- 今後はサーバー向け物理アドレス空間拡大やベクター演算強化が課題