ハクソク

世界を動かす技術を、日本語で。

ArmのCortex X925: デスクトップ性能への到達

概要

  • ArmのCortex X925がついにAMD Zen 5やIntel Lion Coveと同等のデスクトップ性能を実現
  • Nvidia GB10チップに10基のX925コアを搭載し、Dell Pro Maxシリーズなどで採用
  • X925は高性能重視設計で、広いアウトオブオーダー実行ウィンドウや大容量キャッシュを備える
  • 分岐予測やフロントエンドのスループットもZen 5と同等かそれ以上
  • ベクター演算やレジスタリネームなど、最新x86コアと肩を並べる設計

Arm Cortex X925のデスクトップ性能到達

  • デスクトップ/ラップトップ用途で求められる高いシングルスレッド性能
  • これまでAMDやIntelが大規模アウトオブオーダーコアで市場をリード
  • Armは低消費電力・小面積を重視してきたが、近年は高性能分野に進出
  • 2012年のCortex A57登場時には夢物語だったx86同等性能が、Cortex X925で現実に
  • Nvidia GB10はX925コアを10基搭載し、最大4GHz動作
  • Dell Pro Maxシリーズでの採用事例、実機検証が可能に

Cortex X925のマイクロアーキテクチャ

  • 10ワイド設計で極限まで性能追求
  • リオーダーウィンドウはAMD Zen 5を上回る容量
  • L2キャッシュはIntel P-Core並みの容量(2MBまたは3MB選択可)
  • L1キャッシュは64KB固定、全キャッシュでECC/パリティ保護
  • DSU-120インターコネクト経由で最大32MBのL3キャッシュ
  • 物理アドレス空間40bit対応、サーバー用途には非対応

分岐予測とフロントエンド性能

  • 高度な分岐予測器で長いパターンも認識可能
  • BTB容量はZen 5に迫る大規模設計(最大16384分岐追跡)
  • リターンスタックも29エントリと十分な容量
  • SPEC CPU2017での分岐予測精度はZen 5並み、場合によっては上回る

デコード・フロントエンド

  • MOPキャッシュ非搭載、デコードコストはプレデコードや低クロック動作で吸収
  • L1Iキャッシュは76ビット粒度でデータ格納
  • フロントエンドスループットは最大10命令/サイクル(2MBページ利用時)
  • Zen 5やLion Coveよりやや低い実効スループットだが、クロック差が要因

アウトオブオーダー実行・リネーム

  • リオーダーバッファ容量は実測で約525命令、Lion Cove(576)やZen 5(448)に匹敵
  • レジスタファイルやメモリ順序キューもx86大コア並みの規模
  • 128ビットベクター演算はx86大コアよりやや狭い

整数・浮動小数点ユニット

  • 整数側は4つのスケジューラ+8 ALUポート構成、対称性重視
  • 整数madd命令は2つのマイクロオペレーションに分割
  • 浮動小数点側は6本のパイプ、ベクターFMAや整数演算も全パイプ対応
  • FPスケジューラは1本あたり約53エントリと大容量

Armコアの進化と今後の展望

  • Cortex X925は消費電力や面積の制約を抑え、純粋に性能を追求
  • AMDやIntelの最新x86大コアと実用レベルで競合可能な設計
  • デスクトップ/ラップトップ市場におけるArmの存在感拡大
  • 今後はサーバー向け物理アドレス空間拡大ベクター演算強化が課題

Hackerたちの意見

高性能のARMコアについての記事なのに、AppleやM4、M5コアとの比較が一切ないのはちょっと変だね。
同感。チップスとチーズが、これらのコアをAppleシリコンと比較してくれたらいいのに。特に今回は別のARMコアについて話してるからね。数年前はAppleシリコンについての記事を書いてたのに。
それは、少なくとも私にとっては、Appleのチップが私のニーズに合ったオープンプラットフォームを支えている場合にだけ重要なんだよね。今のところ、Mチップを手に入れることはAppleのソフトウェアエコシステムへのコミットメントを意味するし、Appleはユーザーのニーズに最適化されていないってことをはっきり示してる。ほんの少し速いCPUサイクルも、MacOSと戦ったり、何十年もかけて身につけた筋肉記憶を再構築する時間を考えると、全然意味がないから、ありがとう、でもいらないよ。
Appleは一般的なコンピューティングパーツを作ってないよ。これは業界向けのブログで、消費者向けのブログじゃないからね。
Linuxとかを動かしたい人にはほとんど役に立たないね。確かにAsahiはあるし、開発者には感謝だけど、オープンなOSをサポートする気が全然ないメーカーからハードウェアを買う気にはならない人が多いと思うよ。
>高性能ARMコアについての記事で、AppleやQualcommに一切言及がないのはちょっと変だね。
彼らが話しているコアは約2年前にリリースされたものだよ。NVIDIAはこれを彼らのGrace Blackwell(例えばDGX Spark)に基本的にシステムのコーディネーターとして搭載したんだ。とにかく、ここにGB10の形である- https://browser.geekbench.com/v6/cpu/14078585 そして、こちらがノートパソコンの比較可能なM5- https://browser.geekbench.com/macs/macbook-pro-14-inch-2025 M5はコアあたり約32%のアドバンテージがあるけど、DGXは明らかにもっと豊富な電力予算を持っているから、高性能コア10個と効率コア10個を搭載してる(後者は性能コア4個と効率コア6個)。10/10と4/6のコアレイアウトを考えると、前者がマルチコアで後者を圧倒すると思うけど、実際にはほんのわずかしかそうなってない。Samsungは彼らのExynos 2500に同じX925コアを使っていて、折りたたみ式の携帯電話にも使ってる。デスクトップに到達するって基準はいつも変な感じだよね。意味のないバーみたいなもんだ。
AppleのCPUコアを選ぶのはちょっと変だね。Qualcommのコアの方が比較としては適切だと思う。
Chips and Cheeseはアーキテクチャやチップ設計に焦点を当ててるけど、macOS上のツールがあまり洗練されてないと思うから、Appleのチップに関する比較グラフは同じ深さには達してないんじゃないかな。あくまで推測だけど、昨年末に同じDell GB10ハードウェアをテストしたときにいくつか比較したよ。 https://www.jeffgeerling.com/blog/2025/dells-version-dgx-spa...
新しいコア設計についての深掘りをAnandtechで見られなくなったのが寂しいな。SPECベンチマークの整数と浮動小数点スイートを走らせるのは一日中かかるけど、あんなに深いベンチマークをゲームするのは難しいからね。あのレベルの詳細を提供してくれる人がいないのは残念だよ。
彼らが話しているのは、ARM Holdings(その会社)によって設計され、ライセンス可能なARMコアのことだけで、AppleシリコンのようにARMの設計を使っていない他の設計のことではないよ。
モバイルではコンテンツをズームできないから、ほとんどのチャートが読めないよ。
ブラウザには、すべてのウェブサイトでズームを強制できるアクセシビリティオプションがあることが多いよ。
ZoomはAndroidのFirefoxで問題なく動くよ。
ARMがデスクトップやノートパソコンの分野で支配的になって、全く違うアプリケーションが増えたら、レースコンディションによるソフトウェアバグが増えるかもね。X86を意識してソフトウェアを書いてる開発者がいるから、メモリの順序に関する制約が違うし。
OSをいじるならそうかもしれないけど、同じOSでもRAMの量やCPUが違うと、マシン間でアプリケーションを使うのに問題が出ることがあるよ。まあ、私はこの分野の専門家じゃないけどね。
最近の主要な問題は、ほとんどのソフトウェアがElectronベースかウェブアプリになってることだね。98やXPの頃のデスクトップソフトがたくさんあった日々が懐かしい。PCは実際に目的があるものに感じられたし。今、XPや98(特に98/2000のVM)を立ち上げても、OS全体が時間をかけて使える感じがする。最近のPCは、ブラウザを開いて基本的な作業をするだけのランダムな端末みたいに感じる(もちろんゲームは別だけど)。Windows 11のUXは本当に嫌いだし、10もXPに比べたらあんまり良くない。あの昔の時代に戻れることを本当に願ってるよ。
コンパイラが正しいマシンコードを生成するんじゃないの?
ソースコードの手書きのアセンブリ部分だけね。残りはコンパイラが処理するよ。
それは可能性があるね。一部のコードは、x86スタイルの順序付きロードやストアを前提にしてる(気づかずに!)。これを強いメモリモデル、特にTSO(Total Store Order)って呼ぶんだ。x86に「a=1; b=2;」を実行させると、必ず最初に'a'に値を保存するよ。もちろん、コンパイラはストアとロードを再配置することもあるけど、それはまた別の話。ARMはストアとロードを再配置する自由がある。これを弱いメモリモデルって呼ぶんだ。だから、C++のmemory_order::acquireやmemory_order::releaseみたいにコンパイラに明示的に指示しない限り、無効な動作が起こるかもしれないよ。最悪の場合、ハイゼンバグが発生することもある。
アセンブリでプログラムされている場合はね。この手の厄介な詳細はコンパイラが処理すべきだよ。
実は、ARM64でシステムレベルの開発をするのはx86よりも悪くないアイデアだと思ってる。DGX Sparkボックスも持ってるし、低レベルの並行データ構造を作るとき、こういうことにもっと直接的に対処するのが賢い気がする。ただ、実際にこういう問題に直面したことはないんだけどね。
CPUオタクじゃないけど、ブランチ予測の詳細はちょっと難しいな。でも、全体的には良いレビューだと思う。特に、IPCが複雑なワークロードで曖昧になるところのパフォーマンスの詳細が良かった。最近はパフォーマンスの比較をするなら、電力の制約も含めるべきだと思う(これは最終的なチップに依存するのは分かってるけど)。
ARM Cortex-X925は確かにIPCがすごく良いけど、一般的なアプリケーションにしか競争力がないんだよね。配列操作(ベクター命令やレジスタ)を活かせないアプリでは特にそう。SPEC CPU2017の整数テストの結果は、Cortex-X925がこういうアプリを動かしたときの代表的なものだと思う。親記事ではAMD Zen 5が浮動小数点のSPEC CPU2017でかなり良い結果を出してるけど、これらのベンチマーク結果はちょっと誤解を招くよ。AVX-512に最適化されたアプリでは、Zen 5とCortex-X925の違いはもっと大きくなるはずだから。親記事の著者がSPECをどうやってコンパイルしたのか分からないけど、浮動小数点の結果はZen 5に最適化されたプログラムとは一致しないね。Cortex-X925の欠点の一つは、ベクター命令とレジスタが狭いこと。これが同じタスクに対してもっと多くの命令を必要とする原因になってるけど、Cortex-X925は1クロックサイクルあたり最大6つの128ビット命令を実行できるから、これで部分的に補われてる。IntelやAMDは1クロックサイクルあたり最大4つのベクター命令を実行できるけど、こっちは256ビットや512ビットの幅があるからね。これは親記事でも示されてる。Cortex-X925のもう一つの欠点は、ベクター操作に対してマイクロアーキテクチャが不均衡ってこと。数十年にわたって、良いベクター性能を持つCPUは、融合乗算加算(FMA)操作とL1キャッシュメモリからのロードのスループットが同じだった。これは多くのアプリで実行ユニットが常にオペランドで供給されることを保証するために必要なんだ。でも、Cortex-X925は最大4つのロードしかできないのに対して、6つのFMAができる。だから、Cortex-X925はAMDやIntelのCPUに比べて最大FMAスループットに達するのがずっと少ないんだ。これに加えて、FMAとロードの比率を良くするためには、アーキテクチャのベクターレジスタにもっとストレージが必要なんだけど、Cortex-X925はZen 5の4分の1のサイズのベクターレジスタしか持ってないから、これも不利なんだよね。
僕の考えでは、デスクトップやワークステーションにおいて消費電力はあまり関係ないと思う。最近はほとんどの人がノートパソコンを使ってるから、デスクトップマシンもワークステーション化してるしね。コンセントに繋いでいるときは、効率よりもパフォーマンスを優先する。消費電力は、出てくる熱を処理する必要がある程度で重要で、熱を早く逃がせないとパフォーマンスが落ちちゃうからね。
消費電力や効率の数字(例えば、/ワット)が見つからないんだけど。パフォーマンス・パー・エリア(PPA)やパフォーマンス・パー・クロック(PPC)について話してるこれだけ見つけたよ:https://www.reddit.com/r/hardware/comments/1gvo28c/latest_ar...
どのプロセスで製造されているかも言ってないしね。
数ヶ月後にはN1X対X2対M5のノートパソコンのバッテリーライフレビューが出るはずだよ。
でも、x86_64みたいなハードウェアIPロックがあるからね。できるだけRISC-Vの実装を支持した方がいいと思う。ただ、アメリカではSifiveがかなり進んでるけど、現代のデスクトップグレードのRISC-V実装がもうあるのかは分からない… それに、TMSCの最新のシリコンプロセス、つまり~5GHzにアクセスするのが難しい。市場は完全に飽和してるから、何か大きなことが起こらない限り、非常に遅いと思う。例えば、AMDが自社の最高のマイクロアーキテクチャをRISC-Vに適応させるとかね(主にISAデコーディング)。それに、Valveが強力なRISC-Vゲームコンパイルフレームワークを持つクライアントを配布し始めたら…
これは問題を探している解決策みたいなもんだ。RISC-Vは、人々がその価値を見出さない限り成長しないよ。他のアーキテクチャでは解決できない実際の問題を解決できるかどうかが重要なんだ。
ARMのSVE2拡張についての別の良い記事もあるよ- https://gist.github.com/zingaburga/805669eb891c820bd220418ee... いくつかの興味深い結論があって、特にAVX512のギャップをカバーしているってこと: 「AVX512はSSEの穴を多く埋めていて、SVE2はもっと複雑な操作(ヒストグラム作成やビット置換など)を追加し、新しい『ギャップ』(32/64ビット要素専用のCOMPACT、一般的なベクターバイトの左シフトなし、非普遍的な予測など)を導入している。」それに、古いx86開発者がスキルの問題に直面するかもしれないってことも: 「アプリケーションによっては、SVE2用のコードを書くのが新たな課題をもたらすことがある。特に、固定幅の問題を調整したり、ベクター間でデータをスワイプするのが、長さが不明な場合にはずっと難しくなるかもしれない。」
もうArm C1 Ultraに奪われちゃったね。 https://www.androidauthority.com/arm-c1-cpu-mali-g1-gpu-deep...
C1 Ultraは本当に強力に見えるね。128kbのL1Dキャッシュだけで、約10%のIPC改善があって、x86の競争相手をしっかり引き離せるはず。x86はレガシーの4kページサイズのせいで32kbに縛られてるから。
ARMの設計は実質的にペーパーランチだよね。新しいARMがAppleやAMDに匹敵するってプレスリリースが出るけど、実際にその製品を買えるのは何年も先の話。秋に出たGoogle Pixelはまだ2023年に紹介されたX4を使ってるし。この調子だと、Pixel 11はAppleがA20に移行してるときに、X925(Apple A17/M3クラスのコア)で発売されることになるね。 https://wccftech.com/apple-a20-and-a20-pro-all-technological.... コア設計を外注すると、製品の供給に大きな遅れが出るんだよね。
> ARMの設計は実質的にペーパーランチだよね。新しいARMがAppleやAMDに匹敵するってプレスリリースが出るけど、実際にその製品が買えるようになるのは何年も先。この記事は、今すぐ買えるハードウェアをテストしてるんだ。
昔はもっとそうだった気がするけど、X925は18ヶ月前にスペックが発表されたばかりで、今はもう買えるよ(自分は10月から使ってる)。IntelやAMDも新しい設計については、買える前からかなり前にアナウンスしてるしね。ARMも完全に統合されたソリューションを提供する方向に進んでるから、Samsungみたいな顧客はCPUコアだけを取り入れて、自分で埋める必要がなくなる。多分、完全なソリューションをもっと早く出せるようになると思うよ。正直、Appleは変わってるよね。製品が買えるようになるまでCPUについては全然話さないし、わざわざ気にする必要がないんだろうね。
PCデスクトップエコシステムがあって、すべてが「ただ動く」状態じゃないのに、デスクトップパフォーマンスに興味を持つ理由がないよ。ユニバーサルなARM Linuxディストリビューションは何にもサポートされてないし。
それを使ってPCを組めない理由は何なの?PowerPCの時はそうしてたじゃん。