第八世代TPU:エージェント時代のための二つのチップ
6時間前原文(blog.google)
概要
- Googleが第8世代の**Tensor Processor Unit(TPU 8t/8i)**を発表
- TPU 8tは大規模なAIモデルのトレーニング、TPU 8iは高速推論に特化
- 効率性と性能の大幅向上を実現するカスタム設計
- 今年後半に一般提供予定、事前情報リクエスト可能
- AIエージェント時代に向けたインフラ進化の象徴
Google第8世代TPU「TPU 8t/8i」発表
- GoogleがTensor Processor Unit(TPU)第8世代を発表
- TPU 8t:大規模AIモデルのトレーニング専用設計
- TPU 8i:低レイテンシ推論に最適化されたチップ
- 10年以上の開発の集大成であり、Geminiなど主要AI基盤モデルも支援
- Google DeepMindと共同設計による最先端AIワークロード対応
TPU 8tの特徴
- 計算性能:前世代比で約3倍の計算能力を1ポッドで実現
- 大規模スケール:1スーパー・ポッドで9,600チップ、2PBの共有高帯域メモリ
- インターチップ帯域:前世代の2倍、合計121 ExaFlopsの計算力
- 最大活用:10倍高速なストレージアクセス、TPUDirectによるダイレクトデータ転送
- 高い信頼性:**97%以上の「goodput」**を目指し、RAS機能を強化
- リアルタイムテレメトリ、自動障害検知・迂回、Optical Circuit Switchingによる無停止リカバリ
TPU 8iの特徴
- 推論最適化:多エージェント協調や反復処理に最適
- メモリ強化:288GBの高帯域メモリ+384MBのオンチップSRAM(前世代比3倍)
- Axion ARMベースCPU:物理ホスト数2倍、NUMA構成で性能最適化
- ネットワーク革新:ICI帯域19.2Tbps、新アーキテクチャ「Boardfly」で低レイテンシ
- CAE搭載:オンチップCollectives Acceleration Engineで遅延最大5倍削減
- コスト効率:前世代比80%性能向上/コスト同等で処理量2倍
共通技術・エコシステム
- JAX、MaxText、PyTorch、SGLang、vLLMなど主要フレームワークに対応
- ベアメタルアクセス提供、仮想化オーバーヘッドなし
- MaxTextリファレンス実装やTunixなどOSS貢献
- Axion ARMベースCPUによるシステム全体最適化
- 第4世代液冷技術で高密度冷却・省電力化
- シリコンからデータセンターまで一貫した効率設計
- Google Cloud Hypercomputerの一部として利用可能
電力効率とインフラ進化
- 性能当たり電力効率2倍(前世代Ironwood比)
- ネットワークと計算を同一チップ上で統合しデータ移動コスト削減
- 最新データセンターは5年前比で6倍の計算能力/電力単位
- 液冷分配ユニットによる高密度運用
- 全スタック最適化による持続可能なAIインフラ
AIエージェント時代への対応
- 連続的な推論・計画・実行・学習ループに対応するインフラ
- TPU 8t/8iはAIモデル構築・推論・エージェント協調作業を再定義
- 今年後半に一般提供開始予定
- Google Cloud Hypercomputerとして統合運用可能
- 新時代のAIインフラへの転換点となる製品
まとめと今後
- TPU 8t/8iはAI開発・運用の効率・性能・スケールを大幅に向上
- 事前情報リクエスト受付中、業界最先端のAI基盤構築を支援
- Googleのイノベーションが現実のブレークスルーを加速