ハクソク

世界を動かす技術を、日本語で。

Tinybox - オフラインAIデバイス 120Bパラメータ

概要

tinygradは、シンプルかつ急成長中のニューラルネットワークフレームワーク。
3つの主要なOpTypeで複雑なネットワークも簡潔に表現。
tinyboxは、ディープラーニング向けの高性能コンピュータ。
採用情報、FAQ、製品詳細も充実。
AI普及と計算資源のコモディティ化を目指す企業姿勢。

tinygradの特徴

  • tinygradは、最も急成長しているニューラルネットワークフレームワーク
  • シンプルな設計で、複雑なネットワークも3つのOpTypeに分類
    • ElementwiseOps:UnaryOps、BinaryOps、TernaryOps。1~3つのテンソルに対して要素ごとに演算(例:SQRT、LOG2、ADD、MUL、WHEREなど)
    • ReduceOps:1つのテンソルから小さいテンソルを返す(例:SUM、MAX)
    • MovementOps:ShapeTrackerによるコピーなしでデータを移動(例:RESHAPE、PERMUTE、EXPANDなど)
  • CONVMATMULの実装はコードを読むことで理解可能
  • GitHubDiscordで開発・議論を活発に実施

採用・インターン・報酬制度

  • tiny corpは資金調達済みで、フルタイムのソフトウェアエンジニアを採用中
  • 優秀なインターンも歓迎、バウンティ制度で適性を判断
  • オペレーションやハードウェア分野も採用中だが、tinygradへの貢献実績が必須

tinybox 製品情報

  • tinyboxはディープラーニング向けの超高性能コンピュータ
  • バリエーション:red、green、exa(近日登場)
    • red v2:4x 9070XT、64GB GPU RAM、778 TFLOPS、$12,000
    • green v2:4x RTX PRO 6000 Blackwell、384GB GPU RAM、3086 TFLOPS、$65,000
    • exabox:720x RDNA5 AT0 XL、25,920GB GPU RAM、約1 EXAFLOP、2027年発売予定、約$10M
  • CPU:AMD EPYCまたはGENOA搭載
  • システムRAM:128GB~23,040GB
  • ネットワーク:最大400GbE、PCIe 5.0対応
  • ノイズ・電源・サイズ:静音設計、大容量電源、ラックマウント・フリースタンディング両対応
  • 即納在庫あり(red/green)、San Diegoでの受取または世界配送に対応

tinybox FAQ

  • tinyboxとは?
    ディープラーニング向けの高性能PC。MLPerf Training 4.0で10倍高価なPCと比較しても優れたコスパ
  • 購入方法
    サイトから注文、入金確認後1週間以内に出荷
  • カスタマイズ不可
    低価格・高品質維持のため、カスタマイズや特別な注文不可
  • 支払い方法
    ワイヤートランスファー(銀行振込)のみ対応
  • W-9取得可
    必要な場合はダウンロード可能
  • tinygradの利用実績
    openpilotでSnapdragon 845 GPU上の運転モデルに採用。SNPEより高速、onnxファイルやトレーニングもサポート
  • 推論専用か?
    いいえ。オートディフによる順伝播・逆伝播の両方に対応
  • 導入方法
    tinygradリポジトリのインストール手順を参照。PyTorchに似たAPIでシンプル
  • 安定性・今後の展望
    現在はalpha版。PyTorchより2倍速いNVIDIA GPU実装を目指し、2025年Q2リリース予定
  • 高速化の理由
    各オペレーションごとにカスタムカーネルを生成、テンソルの遅延評価、シンプルなバックエンド設計
  • 開発場所
    GitHubとDiscord
  • tiny corpへの依頼・採用・投資
    契約やスポンサーシップはメールで受付。GitHub貢献が採用への近道。投資はPR(プルリクエスト)で

tiny corpのビジョン

  • 目標:ペタフロップのコモディティ化とAIの民主化
  • ミッション:誰もがAIを使える世界の実現

Hackerたちの意見

exaboxは面白いね。誰が買うんだろう?Vera Rubinの発表を見た後だと、今のタイミングでNVIDIAと競争しようなんて思えないよ。もしかしたら、コストを気にするバイヤーを狙ってるのかな?それとも、(比較的)資金に余裕のないMLスタートアップにはいい選択かも。実際、価格を調べたら、Vera Rubinは同じくらいのGPU RAMで半額だったよ。インターコネクトはNVIDIAの方が良いだろうし、これを買う人が想像できないな。Vera Rubinが3年後に出ると思ってる人にはいいかもしれないけど、NVIDIAはもう出荷してるからね。
> exaboxは面白いね。Crysisは動くのかな?
時々、大手と競争できるのは、彼らが5年以上前にインフラを構築していて、今はアップグレードするのが経済的に難しいからなんだよね。彼らにとっては数十億ドルのプロセスだから、赤字を出してでもビジネスを潰しにかかることもあるけど、もしあなたが彼らのビジネスの0.01%未満しか取ってないなら、彼らは気にしないと思うよ。
このウェブサイトがすごくAI生成じゃなくて、人間らしいデザインと文体で作られてるのが皮肉だね。それでも、これは素晴らしいアイデアだし、成功してほしいな。AIの未来は、大企業のモデルに頼るんじゃなくて、みんながローカルでトレーニングしたモデルにあるっていうのはいい意見だと思う。一つ思ったのは、これを240V回路に簡単に接続できるといいなってこと。120Vの回路を2つ探すのは、多くの人にとって面倒だろうし。
65,000ドルも使うなら、2つの回路が必要なのは小さな問題に思えるね。
アメリカの典型的な240V回路は、実際には2つの120V回路で構成されてるから、配線を変えるのはそんなに難しくないよ。
「PRで投資しよう」とオープンにコードの貢献を募ってるのに、AIの貢献についての声明がないのはちょっと驚いたな。もしかしたら、彼らにとっては、善意だけど質の低いPRが丁寧に(文化によっては他の方法で)無視されても問題ないくらいのボリュームがあるのかもしれないね。生成方法は重要じゃないのかな。
AIについての最も尊敬されている文章には、AIが書いた痕跡がほとんどないと思う。多分、業界の人たちはそのサインや信号とノイズに非常に敏感だからだろうね。
赤のv2が120bパラメータモデルで何かできるとは思えないな。最近、デュアルA100のAIホームラボ(80GBのVRAMとNVLink)を構築したばかりなんだけど、他は似たようなスペックだよ。120bはかなり重い量子化が必要で、私の経験ではモデルが統合失調症みたいになっちゃう。kvの余裕もないから、コンテキストが4kを超えるとOOMになるね。今は70bモデルを使ってるけど、まあまあだよ。でも、まだ結構厳しい。赤のv2より16GB多いVRAMがあるし。これが12Uなのも謎だな。私の全体の rig は4Uだよ。緑のv2はGPUが良いけど、65,000ドルならもっと良いCPUと256GBのRAMを期待するよね。Threadripper 7000が高いわけじゃないし。存在してくれて嬉しいけど、正直言ってちょっと混乱するね。
ちゃんと動くけど、特別なパフォーマンスってわけじゃないよ。Epyc Milanのボックスで似たようなスペックのもので、gpt-oss-120bのq4を動かせるし、RAMとGPUに分けて30-50 Tok/secくらい出せるよ。あまり役に立たないのは、64G VRAM/128GシステムRAMの構成で、大きなMoEモデルでもルーターには20Bしか必要ないから、残りのVRAMはほとんど無駄になっちゃう(VRAMとシステムRAMの間でエキスパートを混ぜてもパフォーマンス向上にはほとんど効果がない)。
> KVのスペースがないから、コンテキストが約4kでOOMになるんだよね。KVをシステムRAMやストレージにオフロードできないの?そうすれば、オーバーヘッドがあっても長いコンテキストで動かせるようになると思うんだけど。私の理解では、ローカルAIフレームワークは、VRAMにKVの一部をLRUポリシーでキャッシュするサポートがあるから、オーバーヘッドは許容範囲になるはず。
> なんでこれが12Uなのか、私も混乱してる。私の全体の rig は4Uなんだ。多分、シェル/ケース用の単一SKUを購入しているからだと思う。あなたの質問に対する彼らの答えはこうだろうね:「価格を低く、品質を高く保つために、サーバーの寸法にカスタマイズは提供していません。」
実際のトークン/secの値が、特定のオープンソースモデルのために広告されるのを見てみたいな。今、オフラインハードウェアを探してるんだけど、$12Kもかける前にパフォーマンスを予測するのがすごく難しいんだよね。せめて、Ollamaを使ってUbuntuでGPT-OSS-120Bを動かしたら、常に40トークン/secは出るっていう基準があればいいのに。
GitHubでllmfitを探してみて。これが分析に役立つよ。結構正確だと思う。もしOllamaがすでにインストールされているなら、関連するモデルを直接ダウンロードできるよ。
この会社は、自分たちのハードウェアのランドロードとしての役割を考えるべきかもね。買ったりリースしたりするけど、同時にコロケーションホスティングも提供するみたいな。AIファクトリーに移行しているクリプトマイナーと提携して、スペースや電力を見つける手助けができるかもしれない。だけど、クリプトマイニングセンターで冷却が必要になるかどうかは気になるな。CoreWeaveは移行を成功させて、コロケーションもやってるし、切り替えは現実のものになってる。Tinygradもリサイクルについて考えるべきだと思う。これに関して計画してるのかな?誰か考えてる?私の考えでは、誰が何をどこに持っているかの中央データベースがあれば、リサイクル技術が利用可能になったときに、特定のゴミをどこで調達すればいいか分かるようになると思う(お金を払ってでも)。そもそもそんなデータベースがあれば、業界を活性化させるかもしれない。
Tinyboxはクールだけど、市場は「Kimi 2.5 at 50Tok/s」みたいに、特定のトークン/secでの明確な知能の約束を求めている気がする。
AMDの話は面白いね。tinygradはROCmを使える状態にするために、いろんなドライバーのクセを乗り越えなきゃいけなかったから。あの価格帯だと、NVIDIAが何年もかけて安定させてきたソフトウェアスタックに賭けることになる。実際の利用状況の数字を、同じようなNVIDIAのセットアップと比べてみたいな。
古いニュースだね。ROCmは今は去年よりずっと良くなってるよ。
これは新しいクリプトマイニングの代わりみたいな感じ?初期の頃、クリプトファーミング用のハードウェアが売られてたのを思い出すけど、今はAIってこと?
まあ、そうだね。ただ、ブロック報酬はないけど。
tinygradがアルファから出る条件として「pytorchより2倍速い」って言ってるけど、具体的にどのワークロードがpytorchより2倍以上遅いのか、詳しく教えてほしいな。ほとんどの論文は標準的なコンポーネントを使ってるし、pytorchは典型的なGPUから50%以上の性能を引き出すのは結構得意だと思う。もし、カスタムカーネルを書かないと良い性能が出せないようなエソテリックなものを指してるなら、それはまた別の問題だね。
なんで6GPUの構成をやめたのかよくわからないな。4GPUだと9070もRTX6000も2スロットデザインだから、自分でちょっと高めだけど普通のマザーボードを使って組み立てやすいんだよね。6GPUだとライザーやPCIeリタイマー、デュアルPSU、カスタムケースが必要になるから、コストパフォーマンスはこっちの方が全然良かったと思う。