グラニット 4.1: IBMの8Bモデルによる32B MoEのマッチング
概要
- IBMが企業向けに特化したGranite 4.1オープンソース言語モデルをリリース
- 3種類のサイズ、Apache 2.0ライセンス、15兆トークンで徹底的に訓練
- データ品質と訓練パイプラインへの強いこだわり
- 小型モデルでも従来品を上回るベンチマーク結果
- 実運用を見据えた設計と、厳格なデータフィルタリング・強化学習
IBM Granite 4.1:企業向けオープンソースLLMの新基準
- Granite 4.1は企業利用を想定した言語モデルファミリー
- 3B、8B、30Bの3サイズ展開、全モデルApache 2.0ライセンス
- 15兆トークンで訓練、データ品質に徹底的に注力
- Denseアーキテクチャ採用、MoEや複雑な推論チェーンは不使用
- 8Bモデルが従来の32B MoEモデル(Granite 4.0-H-Small)を多くのベンチマークで上回る
- モデルの進化はパラメータ数の単純拡大ではなく、訓練・データ品質の向上によるもの
ベンチマーク結果と評価
- ArenaHard(GPT-4による実世界チャット品質評価)で8B instructが69.0を記録
- BFCL V3(ツールコーリング)で8Bが68.3、32B MoEは64.7
- GSM8K(小学生レベルの数学推論)、8Bが92.5を達成
- 他の主要ベンチマーク(AlpacaEval, MMLU-Pro, BBH, EvalPlus, MBPP)でも一貫して高評価
- 小型・シンプル・高密度モデルの優位性を証明
訓練パイプラインとデータ戦略
- 3B、8B、30B全モデルで同一のデコーダオンリーDense Transformer設計
- 5段階の訓練フェーズでデータミックスと学習率を段階的に調整
- Phase 1:CommonCrawl 59%、コード20%、数学7%
- Phase 2:数学35%、コード30%に増加
- Phase 3/4:Chain-of-thought推論や命令データを追加
- Phase 5:コンテキストウィンドウを最大512Kトークンへ拡張
- データミックスを4回以上意図的に変更し、目的に合わせて最適化
厳格なデータフィルタリング
- 事前学習後、ファインチューニング前に全サンプルを自動評価
- LLM-as-Judgeが6軸(命令遵守、正確性、完全性、簡潔性、自然さ、キャリブレーション)で採点
- 基準未満は除外、幻覚・誤計算・虚偽前提は自動却下
- RAG/Tool-callingも文脈・構造・スキーマで厳密チェック
- 4.1百万件の厳選サンプルのみでファインチューニング
4段階の強化学習(RL)戦略
- 第1段階:9分野同時学習で忘却防止
- 第2段階:RLHFでチャット品質向上(AlpacaEvalスコア大幅改善)
- 第3段階:自己認識・知識キャリブレーション(短期調整で自己表現を安定化)
- 第4段階:数学特化RLでRLHFによるスコア低下を回復・上回る
- 問題発生時も段階的に修正し、信頼性を確保
コンテキストウィンドウ拡張の工夫
- 512Kトークン対応を段階的に実現(32K→128K→512K)
- 長文対応データとして書籍・コードリポジトリを活用
- 各拡張段階でモデル重みをマージし、短文性能も維持
- RULERベンチマークで長文性能の実在性を検証(性能劣化は緩やか)
利用方法とライセンス
- Ollamaで簡単に導入可能、3Bは一般PC、8Bは高性能PC、30BはGPU必須
- Hugging Face経由で全モデル公開
- vLLMやTransformersで即時運用可能
- IBM APIで事前評価も可能
- FP8量子化版も提供、メモリ制約下で有効
- Apache 2.0で商用利用も安心
想定ユーザーと用途
- 堅牢なツールコーリング、予測可能なレイテンシ、法的リスク回避が必要な企業
- コスト効率重視の8Bが特に有力
- エッジ用途や低コスト推論には3Bが有望
- 最高性能・大規模推論には30Bが最適
- 実運用重視の設計と、問題解決型の開発姿勢が特徴