30B QwenモデルがRaspberry Piに入り、リアルタイムで動作する
100日前原文(byteshape.com)
概要
- Shapelearnによるビット長学習で、Qwen3-30Bモデルの速度と品質を最適化
- メモリ制約を満たした上で、**Tokens per Second (TPS)**と出力品質のバランスを重視
- ByteShapeモデルがUnslothやMagicQuantよりも高いTPS/品質トレードオフを実現
- CPU・GPU・Raspberry Piなど各プラットフォームでの実践的な比較結果
- GPUではビット数削減=高速化とは限らず、カーネルやハードウェア特性が重要
ShapelearnによるQwen3-30B-A3B-Instruct-2507最適化の概要
- Shapelearnは、ビット長学習手法を用いてモデル重みのデータ型を選択
- 目標は、特定デバイス上での高TPSと高品質の両立
- 実用的な制約として、「モデルがメモリに収まること」を最優先
- モデルが収まった後は、ファイルサイズの縮小のみを目的にしない
- 速度と品質のトレードオフが改善される場合のみ、さらなる縮小を検討
llama.cppにおけるビット長最適化の重要性
- llama.cppでは「ビット数削減=速度向上」とは限らない
- 異なる量子化形式で異なるカーネルやオーバーヘッドが発生
- 一部GPUでは低ビット化で逆に速度低下する場合あり
- **メモリは「予算」**として扱い、TPSと品質の最適化を最重視
Raspberry Pi 5(16GB)での実践例
- Qwen3-30Bが**Raspberry Pi 5(16GB)**で動作可能
- Q3_K_S-2.70bpw [KQ-2]は2.70 BPW/8.03 TPS/94.18% BF16品質
- リアルタイム感を実現(8 TPS超で体感上十分な応答速度)
- ByteShapeはUnslothやMagicQuantより効率的なTPS/品質トレードオフ
- メモリ制約下(「RAMに収まること」が最優先)でのモデル選択指針
-
レスポンスタイム重視:Q3_K_S-2.70bpw [KQ-2]推奨
-
最高精度重視:ByteShapeが最小エラー率で最高精度を実現
-
代表的なモデル比較表
- Q4_K_S-3.92bpw [KQ-7]:1.14%誤差/3.92 BPW/5.30 TPS
- Q4_K_S-3.61bpw [KQ-6]:1.25%誤差/3.61 BPW/5.94 TPS
- Q3_K_S-3.25bpw [KQ-5]:2.03%誤差/3.25 BPW/6.68 TPS
- Unsloth UD-IQ3_XXS [6]:2.22%誤差/3.38 BPW/5.03 TPS
-
Intel i7(64GB)での比較
- 全モデルがRAMに収まる環境でのTPS/精度比較
- ByteShapeはUnsloth・MagicQuantより少ないビット数で高品質/高TPS
- 26+ TPS領域で動作するのはByteShapeのみ
- 品質最優先:IQ4_XS-4.67bpw [KQ-9]が最小誤差(0.25%)を達成
- バランス重視:Q3_K_S-3.25bpw [KQ-5]が高精度・高TPS・低BPWの最良バランス
GPU(RTX5090/32GB・RTX4080/16GB)での最適化
- GPUではカーネル選択が性能に大きく影響
- ビット数削減が必ずしも速度向上にならない
- 4ビット付近にTPSと品質のスイートスポットが存在
- RTX5090(32GB):UnslothとMagicQuantの~4bモデルが高TPS・高品質で拮抗
- ByteShapeは高精度領域で最良(IQ4_XS-4.67bpw [IQ-8]:4.67 BPW/272.98 TPS/99.75%精度)
- RTX4080(16GB):VRAM制約下でByteShapeがUnslothより高効率
- IQ4_XS-3.87bpw [IQ-6]:3.87 BPW/214.81 TPS/98.66%精度
- Unsloth Q3_K_XL [8]より1.59倍低誤差・9.4%高TPS
GPUで「3ビット=高速化」とは限らない理由
- データサイズ削減=速度向上とは限らない
- GPUは32スレッド単位の「ワープ」で処理
- 特定データ形式・メモリアクセスパターンで最適化されている
- 「黄金パス」から外れると遅延やオーバーヘッドが発生
- 32バイト単位でのVRAMアクセスなど、ハードウェア固有の制約
- 柔軟性向上=ハードウェア複雑化=遅延・消費電力増加のトレードオフ
まとめ
- Shapelearn/ByteShapeは、実デバイスでの速度・品質最適化に最適な手法
- メモリ制約を満たしつつ、速度と品質のバランスを重視したモデル選択が可能
- CPU・GPU・エッジデバイスすべてで、ByteShapeが最良のTPS/品質トレードオフを実現
- 量子化は単なるビット数削減ではなく、ハードウェア特性・カーネル最適化が鍵
- 現実的なデバイス制約下での最適なAIモデル運用のための新しいベストプラクティス