GLM-4.7-Flash
概要
- GLM-4.7-Flashは30Bクラスで最強クラスのMoEモデル
- 軽量なデプロイと高い性能・効率性の両立
- 主要ベンチマークで他モデルと比較し優れた結果
- ローカル環境でのvLLM/SGLang対応・導入手順案内
- 参考論文の引用情報も記載
GLM-4.7-Flash概要
- GLM-4.7-Flashは30B-A3B MoE構成の大規模言語モデル
- 30Bクラスで最高レベルの性能と効率性を実現
- 軽量なデプロイが可能な新しい選択肢
- Z.ai API PlatformでAPIサービス利用可能
- 技術ブログ・技術レポート(GLM-4.5)も公開中
ベンチマーク性能比較
- AIME 25:GLM-4.7-Flash 91.6、Qwen3-30B-A3B-Thinking-2507 85.0、GPT-OSS-20B 91.7
- GPQA:GLM-4.7-Flash 75.2、Qwen3-30B-A3B-Thinking-2507 73.4、GPT-OSS-20B 71.5
- LCB v6:GLM-4.7-Flash 64.0、Qwen3-30B-A3B-Thinking-2507 66.0、GPT-OSS-20B 61.0
- HLE:GLM-4.7-Flash 14.4、Qwen3-30B-A3B-Thinking-2507 9.8、GPT-OSS-20B 10.9
- SWE-bench Verified:GLM-4.7-Flash 59.2、Qwen3-30B-A3B-Thinking-2507 22.0、GPT-OSS-20B 34.0
- τ²-Bench:GLM-4.7-Flash 79.5、Qwen3-30B-A3B-Thinking-2507 49.0、GPT-OSS-20B 47.7
- BrowseComp:GLM-4.7-Flash 42.8、Qwen3-30B-A3B-Thinking-2507 2.29、GPT-OSS-20B 28.3
- 多くの指標でGLM-4.7-Flashが他モデルを上回る
ローカル環境でのGLM-4.7-Flash利用方法
- vLLM・SGLang両フレームワークに対応(mainブランチのみ)
- 導入手順は公式GitHubリポジトリで詳細解説
- vLLM導入手順
pip install -U vllm --pre --index-url https://pypi.org/simple --extra-index-url https://wheels.vllm.ai/nightlypip install git+https://github.com/huggingface/transformers.git
- SGLang導入手順
pip install sglangでインストール、transformersはmainブランチ最新版へ更新
- transformers利用例
- 必要モジュールインポート・
MODEL_PATH = "zai-org/GLM-4.7-Flash"設定 - チャットテンプレート適用、モデル推論・出力取得
- 必要モジュールインポート・
- vLLMサーバー起動例
vllm serve zai-org/GLM-4.7-Flash \
--tensor-parallel-size 4 \
--speculative-config.method mtpなど各種オプション指定
- SGLangサーバー起動例
python3 -m sglang.launch_server \
--model-path zai-org/GLM-4.7-Flash \
--tp-size 4など各種オプション指定
論文引用情報
- GLM-4.5の詳細はarXiv論文を参照
- 論文タイトル:"GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models"
- 著者:GLM Teamほか多数
- arXiv URL:https://arxiv.org/abs/2508.06471
- 研究・論文等で利用する場合は上記論文を引用