フリオーサ：H100sに対して3.5倍の効率

92日前原文(furiosa.ai)

概要

FuriosaAIによる初のブランドサーバー「NXT RNGD Server」の紹介
AI推論向けに最適化された高性能・省エネ設計
標準的なデータセンター環境にシームレス導入可能
Furiosa SDK・Furiosa LLM runtimeをプリインストール
2026年1月より注文・問い合わせ受付開始

NXT RNGD Server 概要

FuriosaAI初のブランド製品として提供されるターンキーAI推論サーバー
独自のRNGDアクセラレータを最大8基搭載可能な高性能設計
主要なAIワークロードに最適化されたシステム構成
既存データセンター環境に追加工事不要で導入可能
実験から本番運用への移行を迅速化する設計

主な技術仕様

計算性能：最大8基のRNGDアクセラレータ（サーバーあたり4 petaFLOPS FP8）、デュアルAMD EPYCプロセッサ搭載
- BF16、FP8、INT8、INT4対応
メモリ：384 GB HBM3（12 TB/s帯域）、1 TB DDR5システムメモリ
ストレージ：2 × 960 GB NVMe M.2（OS用）、2 × 3.84 TB NVMe U.2（内部ストレージ用）
ネットワーク：1G管理NIC、2 × 25GデータNIC
電源・冷却：システム全体で3 kW、冗長2000 W Titanium PSU、空冷方式
セキュリティ・管理：Secure Boot、TPM、BMCアテステーション、PCIe + I2Cのデュアル管理経路
ソフトウェア：Furiosa SDKおよびFuriosa LLM runtimeプリインストール、Kubernetes・Helm統合

実運用でのメリットと実績

高い電力効率により、TCO（総所有コスト）削減を実現
既存のオンプレミスやクラウドデータセンターで大規模AIを効率的に運用可能
世界のデータセンターの80%以上が空冷・8 kW/ラック以下の現状に最適
規制対応・セキュリティ重視の企業向けに、全データをローカルインフラ上で安全管理
LG AI Researchによる導入実績
- EXAONE 3.5 32Bモデルを4枚のRNGDカードで推論時、4Kコンテキストウィンドウで60トークン/秒、32Kで50トークン/秒達成
- 電子、金融、通信、バイオテクノロジー分野での展開実績

AI導入の現実解としてのNXT RNGD Server

2024年の世界データセンター需要60GW、今後10年で3倍に増加予測
液冷・10kW超を要するGPUシステムに比べ、既存空冷施設でも導入可能な現実的ソリューション
プラグ&プレイ設計により即時運用開始が可能
AI最適化シリコンと、OpenAI API対応のFuriosa LLM（vLLM互換）を統合
将来性・効率性・エンタープライズ対応を兼ね備えたAIインフラ実現

販売・問い合わせ

2026年1月より注文・問い合わせ受付開始
詳細なデータシートや最新情報は公式サイトにて案内

Hackerたちの意見

なんか変なグラフだね。3x H100 PCI-Eと比較してるけど、そんな構成使ってる人いるのかな？アイソパワーで比較しようとしてるの？8台のH100のボックスと比べてほしいな。そっちの方が実際に買う人多いと思うし、トークンやワットを分けられるならそれでいいじゃん。

└

もっと現実的な構成って何？

└

> 彼らは同じ電力で比較しようとしてるの？そう、彼らは「ラック」を15kWと定義してるけど、3x H100 PCIeは1kWちょっと超えるだけなんだよね。だから、GPUがラックの電力使用量の10%未満だと仮定してるけど、それって怪しいくらい低いよね。

└

購入コストと冷却インフラのコストにもよるだろうね。これが3倍のH100ボックスと同じくらいのコストなら、顧客が現在買っているものと直接比較できなくても、フェアな比較になると思うよ。

これ、実際に何が動くの？ベンチマークのグラフがLlama 3.1 8bを指してるってことは、そのモデル用に手動で実装されてるってことだよね。新しいモデルや大きいモデルは動かせないんじゃない？なんでこんな古いモデルでベンチマーク取るのか理解できない。gpt-oss-120bとか、もっと新しいののベンチマーク見せてよ。

└

彼らのブログを見たら、実際にgpt-oss-120bを動かしてたよね。https://furiosa.ai/blog/serving-gpt-oss-120b-at-5-8-ms-tpot-... Llama 3の焦点は需要を反映してると思う。信じがたいかもしれないけど、多くの人はgpt-ossの存在すら知らないんだ。

└

こんなに多くの人が巨大なLLMモデルにだけ注目しているのは、AIアプリケーションのほんの一部（でもめちゃくちゃ儲かる）にしか目を向けてないってことだよね。

ワクワクしたけど、推論用だって知ってがっかり。あくびが出ちゃうね。TSMCがNVIDIAの競合に優先的にテープを提供するのは明らかに彼らの利益になると思う。顧客基盤が分散してる方が、価格が上がるからね。

└

半導体製造にちょっと関わった10年前の私の推測では、火山の下の洞窟にいる神秘的なグルがいて、どの顧客がどのノードにどの価格でアクセスできるかを決めてるんじゃないかな。

└

現在、推論が将来的にLLMの主要なコスト要因になる方向に進んでいるね。テスト時の計算は推論で大量のトークンを必要とするし、最前線モデルをサービスとして提供するのは利益が出ない。輸出制限がかかっていない人は、最前線モデルを訓練するためにGPUを集められるけど（実際、制限がかかっているDeepSeekでもできるし）、OpenAIなどと競えるサービスを提供するのはかなりコストがかかるだろうね。だから、推論での3倍の改善は決して軽視できないと思うよ。

現在のアーキテクチャでNvidiaは壁にぶつかってると思う。Intelが歴史的に様々なアーキテクチャでそうだったようにね。今の世代はパワーと冷却の要件が新しいデータセンターの建設を必要としてるから、推論の経済性が崩れちゃうよ（GPU + データセンター + 発電所 + 核融合研究部門 + データセンター用地のロビー活動 + 水権利 + ...）。Intelの時代は、AMDやCyrix、ARM、Appleなんかが新しいアーキテクチャを持ってきて、Intelの世代を明らかに超えてた。特に、Intelの世代の熱やパワーの限界を突破してたから（その時、Intelはチップ設計グループを解雇して、AMDから人を雇ってCoreを出したりしてた）。Nvidiaには実質的に競争相手がいないし、CUDAの堀を破った人はいないから、IntelやAMDもデータセンターのスペースで本当に競争してない。だから、Blackwellの多キロワットのパワー消費に対する競争圧力もないんだ。これが重要なのは、LLMがすごく便利で役立つツールだけど、AGIじゃないし、スケーリングの壁にぶつかってるから。例えば、Blackwellを使ったデータセンターの経済性を成り立たせるには、全経済がそれに依存することを前提にしないといけない。そうじゃないと、投資の数字が合わないんだ。LLMの使われ方と、実際に提供するサービスのコストとのギャップが大きすぎる。だから、これはプレスリリースだけど、推論用の新しいハードウェアアーキテクチャのようなものを見たら、特に新しい建物を建てたり核融合を解決する必要がないなら、いい兆候だと思う。LLMが好きだし、たくさんの価値を得てるけど、業界の財務状況は今は合わないよね。

└

これありがとう。今のAI経済に対する不安を言葉にしてくれた。

└

> このことが重要なのは、LLMがすごく便利で役立つツールだけど、AGIじゃないし、スケーリングの壁にぶつかってるから。これを聞く必要がある人がいるかわからないけど、AIの本当のブレイクスルーはLLMじゃなくて、生成AIなんだ。LLMは一つの特定のケースに過ぎない。それに、私たちは全く壁にぶつかってないよ。2024年1月のモデル、2025年1月のモデル、今年のモデルをダウンロードして比べてみて。進化の差は指数関数的だよ。

└

> Nvidiaは現在のアーキテクチャで壁にぶつかってると思う。それは何を根拠に？人々が気にしてることに対するパフォーマンスは上がり続けてるし、ソフトウェアスタックもどんどん良くなって、既存のハードウェアでのパフォーマンスを引き出してるよ。推論テスト: https://inferencemax.semianalysis.com/ トレーニングテスト: https://www.lightly.ai/blog/nvidia-b200-vs-h100 https://newsletter.semianalysis.com/p/mi300x-vs-h100-vs-h200...（H100だけど、AMDと比較してる） > でも業界の財務状況は今は合わないよね。それはHNの「お金がたくさんあるから、意味がないはずだ」という知恵に基づいてるの？リリースされた数字を見ると、推論プロバイダーやAnthropicは結構うまくやってるみたいだし、OpenAIは無料のChatGPTの利用のせいで推論でお金を失ってるだけみたい。さらに、名前のない企業がAnthropicに開発者一人あたり月5000ドルを支払ってるって話も聞いたし（!!）そんなコストに敏感じゃない企業がいるなら、Anthropicが彼らを補助する理由はあるのかな？

└

> （その時、Intelは通常チップ設計グループを解雇して、AMDとかからみんなを雇って、Coreとかを出してきたよね）CoreアーキテクチャってIntelのPentium Mのイスラエルチームから来たんじゃなかったっけ？

└

> 例えば、Blackwellを搭載したデータセンターの経済性を成り立たせる唯一の方法は、全経済がそれで動くと仮定することだよね。便利なツールや改善されたインターフェースじゃなくて。まだ本当の価格を払ってないって確信してる。みんな市場シェアを取りに行ってるから、これが持続可能になるときには価格が上がるはず。そうなったら、どのユースケースが高すぎて使えなくなるのか、それが適用範囲を狭めるのか？

└

TPUはどうなの？NvidiaのGPUより効率的で、めちゃくちゃ多くの推論が行われてるし、公共に売られてはいないけど、技術全体がNvidiaの次のステップに影響を与えるべきだと思う。AMDがIntelに影響を与えたように。

└

LLMに利益がないからって、俺は気にしないよ。DDR5を買いたいだけで、電気代にバカ高いお金は払いたくないんだ！

└

> 推論の経済性が崩壊するだろうね。今の時点で、彼らはもう封筒の計算すらしてないと思うよ。投資家がどれだけお金を騙し取られるか、それが計算に使われるんだ。IPOまで生き残るだけだね！

└

> 私はNVIDIAが現在のアーキテクチャで壁にぶつかっていると思う。Googleは2015年にTPUを発表した。NVIDIAは2018年にTensorコアを導入した。どちらもシストリックアレイを利用している。そして先月、NVIDIAは創業者と元TPUの人を含むGroqを擬似的に買収した。彼らのLPUは推論に対してはるかに効率的だ。また、Groqは完全にアメリカ製で、古いノードを使用した多様なサプライチェーンを持っているのも注目すべき点だ。NVIDIAのアーキテクチャは全然問題ない。彼らは資金も豊富で、技術的なリーダーシップもある。彼らの弱点は顧客、エネルギーの欠如、TSMCやメモリーカルテルへの依存にある。

└

Etchedはどうなってる？ https://techfundingnews.com/nvidia-rival-ai-chip-maker-etche...

WebGLが有効じゃないから、テキストベースのブログ記事が一言も読めないのは合理的なの？

└

あなたはターゲット層じゃないよ。普通の投資家やC-suiteのノートパソコンやスマホで動くもの（新しいiPhoneやMacBookの「標準」Safari、あるいは企業の呪われたWindows環境でChromeとか）は全然問題ないし、もちろん彼らはキラキラを最大限にする必要があるよね。2020年代なんだから。

└

FFでの私の解決策は「リーダービュー」を切り替えることだった。もしかしたら合理的な理由があって、バグかもしれないね。

効率を重視するのは、単に生のパフォーマンスを追求するよりも本当にクールだと思う！カード自体のページにはもっと詳しい情報があって、結構いいグラフもあるよ：https://furiosa.ai/rngd RNGDがH100 SXMカードのセットアップより遅くなることを認めているけど、その一方でワットあたりのトークン数はずっと良い！実際、Cerebrasのチップとはどれくらい違うのか気になるな。あっちはスピード最適化がされてるから、効率にも影響が出ると思うんだけど：https://www.cerebras.ai/

└

1枚あたり48GBのRAMは少ない気がする。8枚のカードを搭載したフルサーバーシステムは、現代の大規模オープンモデルを動かすのにギリギリのRAMしかないし、ユーザーリクエストをバッチ処理するのにもかなりのメモリを消費するよね。これらのマシンとカードが市場でどう受け入れられるか、ちょっと興味あるな。

NvidiaのGPUとの違いが気になる人へ：Nvidiaは柔軟で汎用的なGPUで、訓練や混合ワークロードに優れている。Furiosaは、柔軟性を犠牲にして、コスト、電力効率、スケールでの予測可能なレイテンシを大幅に向上させた推論専用のASICだよ。

重要な情報がほとんど欠けてるね。価格や発送の速さがわからない。もし実際に配達できて、NVIDIAから市場シェアを奪えるなら、嬉しいんだけど。

タイトルは面白そうだけど、iPhone15ではエラーが出てコンテンツが表示されない。WebGLの初期化ができないからなんだよね。なんでみんなこんな機能にリンクするの？最近はシンプルなHTMLやCSSはどこに行ったんだろう。編集: コメントを見たり、読み込まれた1ページを見た感じでは、これは2024年に発表された5nm技術みたいで、H100との比較もあるけど、GB300の登場を考えるとちょっと古臭い感じがする。

こういうのはいつも上手くいかない。ほとんどの場合、以下の理由があるからだと思う: - ハードウェアの複雑さ（スケジューリングとかアクセスパターン）をソフトウェアに移せると思ってる。魔法のコンパイラやランタイムは来ない。 - プログラムが難しいけど速いアーキテクチャが開発者に理解されると思ってる。無理だよ。 - 特定のワークロードを想定している。ワークロードが変わると、そのアーキテクチャは最適でなくなるか、使えなくなることもある。 - でも一番重要なのは、基本的なボトルネック、つまりメモリ帯域幅を理解していないこと。ペーパー上のスペック、例えばFLOPSの合計やFLOPS/Wを増やしても、メモリからどれだけ読み込めるかが制限される。競合と同じだけしかできないんだ。これを克服するには、賢さと複雑さ（キャッシュライン、スマートなアルゴリズム、アクセラレーション構造など）が必要だけど、これらはすべて複雑なコンピュータで動かさないといけない。だから、NVIDIAのような企業は、こういう常に現れるディスラプターに直面しても生き残っているんだ。実際、これはますます真実になっていて、メモリ帯域幅はチップの端にあるトランシーバーに依存しているし、チップのサイズが増えない限り、新しいプロセスノードで帯域幅は自動的に増えない。レイテンシも全然改善されない。でも、トランジスタが増えるから、ワークロードをもっと賢く処理するために使える。実際、CPUベースの大規模並列計算が復活する可能性も否定できない。

└

> - プログラムが難しいけど速いアーキテクチャが開発者に理解されると思ってる。無理だよ。あるいは、本当に難しいことを解決して最大のパフォーマンスを引き出すことに挑むニッチな分野で理解されるかもね（PE、ヘッジファンド、インテリジェンス）。どちらにしても、ソフトウェアエコシステムがフィードバックしないと、大規模な普及は難しいってことには同意する。

└

それにネットワーキングを重ねると、さらにソフトウェア/ハードウェアの複雑さが増すよね。

ハクソク