GLM-4.7-Flash

91日前原文(huggingface.co)

概要

GLM-4.7-Flashは30Bクラスで最強クラスのMoEモデル
軽量なデプロイと高い性能・効率性の両立
主要ベンチマークで他モデルと比較し優れた結果
ローカル環境でのvLLM/SGLang対応・導入手順案内
参考論文の引用情報も記載

GLM-4.7-Flash概要

GLM-4.7-Flashは30B-A3B MoE構成の大規模言語モデル
30Bクラスで最高レベルの性能と効率性を実現
軽量なデプロイが可能な新しい選択肢
Z.ai API PlatformでAPIサービス利用可能
技術ブログ・技術レポート（GLM-4.5）も公開中

ベンチマーク性能比較

AIME 25：GLM-4.7-Flash 91.6、Qwen3-30B-A3B-Thinking-2507 85.0、GPT-OSS-20B 91.7
GPQA：GLM-4.7-Flash 75.2、Qwen3-30B-A3B-Thinking-2507 73.4、GPT-OSS-20B 71.5
LCB v6：GLM-4.7-Flash 64.0、Qwen3-30B-A3B-Thinking-2507 66.0、GPT-OSS-20B 61.0
HLE：GLM-4.7-Flash 14.4、Qwen3-30B-A3B-Thinking-2507 9.8、GPT-OSS-20B 10.9
SWE-bench Verified：GLM-4.7-Flash 59.2、Qwen3-30B-A3B-Thinking-2507 22.0、GPT-OSS-20B 34.0
τ²-Bench：GLM-4.7-Flash 79.5、Qwen3-30B-A3B-Thinking-2507 49.0、GPT-OSS-20B 47.7
BrowseComp：GLM-4.7-Flash 42.8、Qwen3-30B-A3B-Thinking-2507 2.29、GPT-OSS-20B 28.3
- 多くの指標でGLM-4.7-Flashが他モデルを上回る

ローカル環境でのGLM-4.7-Flash利用方法

vLLM・SGLang両フレームワークに対応（mainブランチのみ）
導入手順は公式GitHubリポジトリで詳細解説
vLLM導入手順
- pip install -U vllm --pre --index-url https://pypi.org/simple --extra-index-url https://wheels.vllm.ai/nightly
- pip install git+https://github.com/huggingface/transformers.git
SGLang導入手順
- pip install sglangでインストール、transformersはmainブランチ最新版へ更新
transformers利用例
- 必要モジュールインポート・MODEL_PATH = "zai-org/GLM-4.7-Flash"設定
- チャットテンプレート適用、モデル推論・出力取得
vLLMサーバー起動例
- vllm serve zai-org/GLM-4.7-Flash \
  --tensor-parallel-size 4 \
  --speculative-config.method mtp など各種オプション指定
SGLangサーバー起動例
- python3 -m sglang.launch_server \
  --model-path zai-org/GLM-4.7-Flash \
  --tp-size 4など各種オプション指定

論文引用情報

GLM-4.5の詳細はarXiv論文を参照
論文タイトル："GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models"
著者：GLM Teamほか多数
arXiv URL：https://arxiv.org/abs/2508.06471
研究・論文等で利用する場合は上記論文を引用

Hackerたちの意見

なんか、着実に改善されてる感じだね。UIのデモは4.6よりもかなり良くなってる。オープンモデルはベンチマークで約1年遅れてるけど、長期的にはワクワクするね。いつも通り、GLMはめっちゃ大きい - 355Bパラメータで31Bがアクティブだから、自分でホストするのは大変だよ。個人的には、Cerebrasのエンドポイントにぴったりだと思う。Sonnet 4.x（x<5）のクオリティを超低遅延で得られるのは魅力的だね。

└

これはFlashバリアントで、合計31Bパラメータしかないことに注意してね。それでも、コーディングパフォーマンス（少なくともSWE-Bench Verifiedで測定した結果）では、o3/GPT-5ミニとほぼ同等みたい。これが実際の使用に繋がれば、家庭で現実的に動かせるものとしてはかなりすごいよね。

└

昨日、GLM-4.7（Flashじゃない）を使ってCerebrasを試してみたんだけど、有料APIクレジット（$10）を使ったよ。1分ごとにレート制限があって、キャッシュされたトークンもカウントされるから、毎分の最初の数秒で制限されちゃって、その後は残りの時間待たなきゃいけない。だから、1000トーク/secで「速い」って言われてるけど、実際の使用には向いてないね。レート制限とキャッシュトークンのペナルティで、実質的には<50トーク/secになっちゃう。しかも、リクエスト/レスポンスごとに同じキャッシュトークンにフルプライスを請求されるから、1つの比較的簡単なコーディングタスクで$4も使っちゃった。GPT-5.2-CodexやキャッシュをサポートするOpusやSonnet以外のモデルなら、$0.50未満で済んだだろうし、もっと早かったはず。

└

> UIのワンショットデモは4.6より大幅に改善されてるね。これはモデルの質を測るにはひどい「テスト」だよ。UIが分布外になると、どのモデルもダメになる。Codexは近づいてはいるけど、やっぱり失敗する。

└

Sonnetは1年前ですでにかなり良かったけど、オープンウェイトモデルは本当に同じくらい良いの？

└

オープンモデルのラボがブレイクスルーを起こさない限り、常に遅れをとるだろうね。彼らの主な手法は、最先端モデルを蒸留することだから。人々はこれらのモデルを「追いついている」って言うけど、実際はトラックに引っ張られてるトレーラーみたいなもんだよ。

└

これ言われるけど、実際のところは証明されてないよね。今の大きな問題は、自分たちのワークロードに関連するベンチマークを作ることだと思う。アメリカの外交政策のせいで、昨日claudeをやめてminimax m2に乗り換えた。以前claudeで書いたプロジェクトのために、全体のデザイン仕様書を書いたんだけど（今回はアーキテクチャに少し変更があって、隣接してるけど同じじゃない）。直感的には、オープンコードのminimax m2.1の方がclaudeより好き。史上最も簡単なボイコットだね。（10ドルのプランにしたけど、今のところは問題ないよ）。

いいね、OpenCodeを使って、32GBのGPUでllama.cpp上でローカルの30B-A3Bモデルを試してるところだよ（4ビット）。128kコンテキスト用にVRAMも十分残ってる。今のところ、Qwen3-coderが一番いい結果を出してる。Nemotron 3 Nanoはもっと良いベンチマークを出すはずだけど、私がやる仕事にはあまり効果がないみたい。主に「まだカバーされていないこのメソッドやあのメソッドのテストを書く」って感じの作業だからね。誰かが約4ビットのGGUFで量子化したら試してみるつもり。Codexは明らかにクオリティが高いけど、待たされることが多い。これらの小さいモデルが、ベンチマークだけじゃなくて、もっと良くなっていくことを願ってるよ。

└

https://huggingface.co/unsloth/GLM-4.7-GGUF このユーザーも良いクオンタイズをたくさんやってるよ: https://huggingface.co/0xSero

└

> Codexは確かにクオリティが高いけど、待たされるのが辛いんだよね。たいていは高品質な出力になるけど、たまにそうならないこともあって、結局Opusなら数分で生成できたようなクソみたいなAIのゴミができちゃう。

これって、情報に疎い人にとってはどんな意味があるの？

└

32GBのRAMがあれば、MacBookでgpt 5ミニレベルのAIを動かせるよ。LLMをサービスとしてもっと安く手に入れられる。例えば、このモデルはHaiku 4.5の10分の1以下の値段だよ。

すでにローカルでこれを動かしてる人に聞きたいんだけど、今のところ一番簡単なセットアップ（ツールと量子化フォーマット）は何？動作するコマンドがあれば、ぜひ見せてほしいな。

└

4ビットの量子化をllama cpp（またはそのラッパーのいずれか）で実行するのを検討してみて。

└

llama.cppからのllama-serverを使ってるよ（CUDAバックエンド用にコンパイル済みだけど、READMEには他のバックエンド用のプリビルドバイナリと手順もある）。RTX 3090でLubuntu上でQ4_K_M量子化を使ってる: https://github.com/ggml-org/llama.cpp/releases https://huggingface.co/ngxson/GLM-4.7-Flash-GGUF/blob/main/G... https://github.com/ggml-org/llama.cpp?tab=readme-ov-file#sup... llama-server -ngl 999 --ctx-size 32768 -m GLM-4.7-Flash-Q4_K_M.gguf これでhttp://127.0.0.1:8080でチャットできるし、OpenAI互換のAPIも使えるよ: http://127.0.0.1:8080/v1/chat/completions まあまあ動くけど、新しいモデルが出ると実装やチャットテンプレートに微妙なバグがあることが多いから、数日後にモデルとサーバーの両方を更新する価値はあるかもね。

└

ollama run hf.co/ngxson/GLM-4.7-Flash-GGUF:Q4_K_Mみたいな感じ。めっちゃ速い！でも今のところ、良いテンプレートがないからゴミみたいな出力になってる。だから、ollama.comでモデルやテンプレートを待つことにするよ。

速さが欲しいときは、GeminiかCerebrasを使うかな。GLM 4.7は日常的に使えるくらい良いけど、指示に従わないときはイライラすることもある。

これがリリースに関する彼らの説明だよ：GLM-4.7-Flashをローンチしました。これは軽量で効率的なモデルで、GLM-4.7の無料版として設計されていて、コーディング、推論、生成タスクで強力なパフォーマンスを提供します。低遅延で高スループットを実現。更新により、スケールにおいて競争力のあるコーディング能力を提供し、ライティング、翻訳、長文コンテンツ、ロールプレイ、そして高頻度・リアルタイムのユースケース向けの美的出力において、業界最高の一般的な能力を提供します。

└

今年の2つのノートが2025年って間違ってマークされてるけど、ウェブサイトの投稿は手作りかもしれないね。

z.aiのモデルをコーディングプランで使ってるんだけど（コスパがすごい）、GLM-4.7以降はその結果にさらに自信を持てるようになったよ。普通のclaude-codeとopencodeの両方で使ってるけど、最近はclaude-codeがAnthropicモデルと相性が良く作られてるから、opencodeの方が多いかな。それに、これは「-Flash」バージョンだよ。以前は4.5-Flashだったけど、4.6-Flashはスキップしたんだ。このモデルはHaikuと同等とされてる。コーディングプランのドキュメントでも、このモデルは`ANTHROPIC_DEFAULT_HAIKU_MODEL`用に使うべきって書いてあるよ。

└

同じく、プロモオファーで$28で12ヶ月のサブスクリプションをゲットしたよ。$20/月のClaude Proプランの5倍の使用制限がある。今のところclaudeコードでしか使ってないけど。

GLMモデル、めっちゃいいと思う。Qwenよりも全然いいよ。新しいGLMエアが出たら、デスクトップで動かしたいな。

HFに詳しい人がこれを説明してくれるといいな… ここで何が起こってるのかよくわからない: https://huggingface.co/inference/models?model=zai-org%2FGLM-...

これを合理的な速度で動かすために必要な最小ハードウェアは何？うちのMac Miniじゃ無理そうだけど、将来的にはデータエンリッチメント系の長時間プロジェクト用にMac Studioに興味があるかも。