ハクソク

世界を動かす技術を、日本語で。

GLM-4.7-Flash

概要

  • GLM-4.7-Flashは30Bクラスで最強クラスのMoEモデル
  • 軽量なデプロイと高い性能・効率性の両立
  • 主要ベンチマークで他モデルと比較し優れた結果
  • ローカル環境でのvLLM/SGLang対応・導入手順案内
  • 参考論文の引用情報も記載

GLM-4.7-Flash概要

  • GLM-4.7-Flash30B-A3B MoE構成の大規模言語モデル
  • 30Bクラスで最高レベルの性能効率性を実現
  • 軽量なデプロイが可能な新しい選択肢
  • Z.ai API PlatformでAPIサービス利用可能
  • 技術ブログ・技術レポート(GLM-4.5)も公開中

ベンチマーク性能比較

  • AIME 25:GLM-4.7-Flash 91.6、Qwen3-30B-A3B-Thinking-2507 85.0、GPT-OSS-20B 91.7
  • GPQA:GLM-4.7-Flash 75.2、Qwen3-30B-A3B-Thinking-2507 73.4、GPT-OSS-20B 71.5
  • LCB v6:GLM-4.7-Flash 64.0、Qwen3-30B-A3B-Thinking-2507 66.0、GPT-OSS-20B 61.0
  • HLE:GLM-4.7-Flash 14.4、Qwen3-30B-A3B-Thinking-2507 9.8、GPT-OSS-20B 10.9
  • SWE-bench Verified:GLM-4.7-Flash 59.2、Qwen3-30B-A3B-Thinking-2507 22.0、GPT-OSS-20B 34.0
  • τ²-Bench:GLM-4.7-Flash 79.5、Qwen3-30B-A3B-Thinking-2507 49.0、GPT-OSS-20B 47.7
  • BrowseComp:GLM-4.7-Flash 42.8、Qwen3-30B-A3B-Thinking-2507 2.29、GPT-OSS-20B 28.3
    • 多くの指標でGLM-4.7-Flashが他モデルを上回る

ローカル環境でのGLM-4.7-Flash利用方法

  • vLLMSGLang両フレームワークに対応(mainブランチのみ)
  • 導入手順は公式GitHubリポジトリで詳細解説
  • vLLM導入手順
    • pip install -U vllm --pre --index-url https://pypi.org/simple --extra-index-url https://wheels.vllm.ai/nightly
    • pip install git+https://github.com/huggingface/transformers.git
  • SGLang導入手順
    • pip install sglangでインストール、transformersはmainブランチ最新版へ更新
  • transformers利用例
    • 必要モジュールインポート・MODEL_PATH = "zai-org/GLM-4.7-Flash"設定
    • チャットテンプレート適用、モデル推論・出力取得
  • vLLMサーバー起動例
    • vllm serve zai-org/GLM-4.7-Flash \
      --tensor-parallel-size 4 \
      --speculative-config.method mtp など各種オプション指定
  • SGLangサーバー起動例
    • python3 -m sglang.launch_server \
      --model-path zai-org/GLM-4.7-Flash \
      --tp-size 4など各種オプション指定

論文引用情報

  • GLM-4.5の詳細はarXiv論文を参照
  • 論文タイトル:"GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models"
  • 著者:GLM Teamほか多数
  • arXiv URL:https://arxiv.org/abs/2508.06471
  • 研究・論文等で利用する場合は上記論文を引用

Hackerたちの意見

なんか、着実に改善されてる感じだね。UIのデモは4.6よりもかなり良くなってる。オープンモデルはベンチマークで約1年遅れてるけど、長期的にはワクワクするね。いつも通り、GLMはめっちゃ大きい - 355Bパラメータで31Bがアクティブだから、自分でホストするのは大変だよ。個人的には、Cerebrasのエンドポイントにぴったりだと思う。Sonnet 4.x(x<5)のクオリティを超低遅延で得られるのは魅力的だね。
これはFlashバリアントで、合計31Bパラメータしかないことに注意してね。それでも、コーディングパフォーマンス(少なくともSWE-Bench Verifiedで測定した結果)では、o3/GPT-5ミニとほぼ同等みたい。これが実際の使用に繋がれば、家庭で現実的に動かせるものとしてはかなりすごいよね。
昨日、GLM-4.7(Flashじゃない)を使ってCerebrasを試してみたんだけど、有料APIクレジット($10)を使ったよ。1分ごとにレート制限があって、キャッシュされたトークンもカウントされるから、毎分の最初の数秒で制限されちゃって、その後は残りの時間待たなきゃいけない。だから、1000トーク/secで「速い」って言われてるけど、実際の使用には向いてないね。レート制限とキャッシュトークンのペナルティで、実質的には<50トーク/secになっちゃう。しかも、リクエスト/レスポンスごとに同じキャッシュトークンにフルプライスを請求されるから、1つの比較的簡単なコーディングタスクで$4も使っちゃった。GPT-5.2-CodexやキャッシュをサポートするOpusやSonnet以外のモデルなら、$0.50未満で済んだだろうし、もっと早かったはず。
> UIのワンショットデモは4.6より大幅に改善されてるね。これはモデルの質を測るにはひどい「テスト」だよ。UIが分布外になると、どのモデルもダメになる。Codexは近づいてはいるけど、やっぱり失敗する。
Sonnetは1年前ですでにかなり良かったけど、オープンウェイトモデルは本当に同じくらい良いの?
オープンモデルのラボがブレイクスルーを起こさない限り、常に遅れをとるだろうね。彼らの主な手法は、最先端モデルを蒸留することだから。人々はこれらのモデルを「追いついている」って言うけど、実際はトラックに引っ張られてるトレーラーみたいなもんだよ。
これ言われるけど、実際のところは証明されてないよね。今の大きな問題は、自分たちのワークロードに関連するベンチマークを作ることだと思う。アメリカの外交政策のせいで、昨日claudeをやめてminimax m2に乗り換えた。以前claudeで書いたプロジェクトのために、全体のデザイン仕様書を書いたんだけど(今回はアーキテクチャに少し変更があって、隣接してるけど同じじゃない)。直感的には、オープンコードのminimax m2.1の方がclaudeより好き。史上最も簡単なボイコットだね。(10ドルのプランにしたけど、今のところは問題ないよ)。
いいね、OpenCodeを使って、32GBのGPUでllama.cpp上でローカルの30B-A3Bモデルを試してるところだよ(4ビット)。128kコンテキスト用にVRAMも十分残ってる。今のところ、Qwen3-coderが一番いい結果を出してる。Nemotron 3 Nanoはもっと良いベンチマークを出すはずだけど、私がやる仕事にはあまり効果がないみたい。主に「まだカバーされていないこのメソッドやあのメソッドのテストを書く」って感じの作業だからね。誰かが約4ビットのGGUFで量子化したら試してみるつもり。Codexは明らかにクオリティが高いけど、待たされることが多い。これらの小さいモデルが、ベンチマークだけじゃなくて、もっと良くなっていくことを願ってるよ。
https://huggingface.co/unsloth/GLM-4.7-GGUF このユーザーも良いクオンタイズをたくさんやってるよ: https://huggingface.co/0xSero
> Codexは確かにクオリティが高いけど、待たされるのが辛いんだよね。たいていは高品質な出力になるけど、たまにそうならないこともあって、結局Opusなら数分で生成できたようなクソみたいなAIのゴミができちゃう。
これって、情報に疎い人にとってはどんな意味があるの?
32GBのRAMがあれば、MacBookでgpt 5ミニレベルのAIを動かせるよ。LLMをサービスとしてもっと安く手に入れられる。例えば、このモデルはHaiku 4.5の10分の1以下の値段だよ。
すでにローカルでこれを動かしてる人に聞きたいんだけど、今のところ一番簡単なセットアップ(ツールと量子化フォーマット)は何?動作するコマンドがあれば、ぜひ見せてほしいな。
4ビットの量子化をllama cpp(またはそのラッパーのいずれか)で実行するのを検討してみて。
llama.cppからのllama-serverを使ってるよ(CUDAバックエンド用にコンパイル済みだけど、READMEには他のバックエンド用のプリビルドバイナリと手順もある)。RTX 3090でLubuntu上でQ4_K_M量子化を使ってる: https://github.com/ggml-org/llama.cpp/releases https://huggingface.co/ngxson/GLM-4.7-Flash-GGUF/blob/main/G... https://github.com/ggml-org/llama.cpp?tab=readme-ov-file#sup... llama-server -ngl 999 --ctx-size 32768 -m GLM-4.7-Flash-Q4_K_M.gguf これでhttp://127.0.0.1:8080でチャットできるし、OpenAI互換のAPIも使えるよ: http://127.0.0.1:8080/v1/chat/completions まあまあ動くけど、新しいモデルが出ると実装やチャットテンプレートに微妙なバグがあることが多いから、数日後にモデルとサーバーの両方を更新する価値はあるかもね。
ollama run hf.co/ngxson/GLM-4.7-Flash-GGUF:Q4_K_Mみたいな感じ。めっちゃ速い!でも今のところ、良いテンプレートがないからゴミみたいな出力になってる。だから、ollama.comでモデルやテンプレートを待つことにするよ。
速さが欲しいときは、GeminiかCerebrasを使うかな。GLM 4.7は日常的に使えるくらい良いけど、指示に従わないときはイライラすることもある。
これがリリースに関する彼らの説明だよ:GLM-4.7-Flashをローンチしました。これは軽量で効率的なモデルで、GLM-4.7の無料版として設計されていて、コーディング、推論、生成タスクで強力なパフォーマンスを提供します。低遅延で高スループットを実現。更新により、スケールにおいて競争力のあるコーディング能力を提供し、ライティング、翻訳、長文コンテンツ、ロールプレイ、そして高頻度・リアルタイムのユースケース向けの美的出力において、業界最高の一般的な能力を提供します。
今年の2つのノートが2025年って間違ってマークされてるけど、ウェブサイトの投稿は手作りかもしれないね。
z.aiのモデルをコーディングプランで使ってるんだけど(コスパがすごい)、GLM-4.7以降はその結果にさらに自信を持てるようになったよ。普通のclaude-codeとopencodeの両方で使ってるけど、最近はclaude-codeがAnthropicモデルと相性が良く作られてるから、opencodeの方が多いかな。それに、これは「-Flash」バージョンだよ。以前は4.5-Flashだったけど、4.6-Flashはスキップしたんだ。このモデルはHaikuと同等とされてる。コーディングプランのドキュメントでも、このモデルは`ANTHROPIC_DEFAULT_HAIKU_MODEL`用に使うべきって書いてあるよ。
同じく、プロモオファーで$28で12ヶ月のサブスクリプションをゲットしたよ。$20/月のClaude Proプランの5倍の使用制限がある。今のところclaudeコードでしか使ってないけど。
GLMモデル、めっちゃいいと思う。Qwenよりも全然いいよ。新しいGLMエアが出たら、デスクトップで動かしたいな。
HFに詳しい人がこれを説明してくれるといいな… ここで何が起こってるのかよくわからない: https://huggingface.co/inference/models?model=zai-org%2FGLM-...
これを合理的な速度で動かすために必要な最小ハードウェアは何?うちのMac Miniじゃ無理そうだけど、将来的にはデータエンリッチメント系の長時間プロジェクト用にMac Studioに興味があるかも。