ハクソク

世界を動かす技術を、日本語で。

Qwen 3.5をローカルで実行する方法

概要

  • Alibabaが開発した最新モデルファミリーQwen3.5の概要
  • 多言語・マルチモーダル推論、長文コンテキスト対応
  • Smallシリーズを含む多様なパラメータ規模
  • 推論・ファインチューニング・利用手順の解説
  • 最適なハードウェア要件・推論モードの選択指針

Qwen3.5 モデルファミリーの特徴

  • Qwen3.5はAlibabaが開発した最新のマルチモーダルLLMファミリー
    • Qwen3.5-35B-A3B、27B、122B-A10B、397B-A17B
    • Smallシリーズ:0.8B、2B、4B、9B
  • 強力な推論性能多言語対応(201言語)
  • 最大256K(262,144)トークンのコンテキストウィンドウ(YaRNで最大1Mまで拡張可能)
  • エージェント的コーディング、画像認識、チャット、長文処理に優れる
  • 35B/27Bモデル22GB RAMのMac等でも動作可能
  • GGUF形式(Unsloth Dynamic 2.0等)で配布、量子化アルゴリズム改善済み
  • Unsloth Dynamic 2.0による4bit量子化で重要レイヤーは8/16bitにアップキャスト
  • ツールコーリングやチャットテンプレートの改善により安定性向上

推論・ファインチューニングの基本

  • GGUFファイルHugging Face等からダウンロード
  • llama.cpp互換のバックエンドで高速ローカル推論
    • GPU非搭載の場合-DGGML_CUDA=OFFでビルド
    • llama.cppの最新版はGitHubから取得
  • Unslothを用いたファインチューニングも可能
  • **推論時はモデルファイルサイズ以上の合計メモリ(VRAM+RAM)**を確保推奨
    • メモリ不足時はSSD/HDDオフロード対応だが速度低下

モデル選択と推奨ハードウェア

  • 推論用メモリ要件例
    • 9Bモデル:12GB RAM/VRAM
    • 27Bモデル:18GB RAM/VRAM
    • 35Bモデル:24GB RAM/VRAM
    • 122Bモデル:70GB RAM/VRAM
    • 397Bモデル:256GB RAM/VRAM(4bit量子化時)
  • 27Bと35B-A3Bの比較
    • 27B:精度重視で省メモリ
    • 35B-A3B:高速推論重視

推論モードとパラメータ設定

  • 思考(Thinking)モード非思考(Non-thinking)モードの切替
    • 一般タスク:思考モード(temperature=0.7, top_p=0.8, presence_penalty=1.5等)
    • 精密コーディング:非思考モード(temperature=1.0, top_p=0.95, presence_penalty=0.0等)
  • **Smallシリーズ(0.8B, 2B, 4B, 9B)**はデフォルトで思考モード無効
    • 有効化には--chat-template-kwargs '{"enable_thinking":true}'を指定
  • 繰り返し防止にはpresence_penaltyを調整(高すぎると性能低下に注意)

GGUFダウンロードと推論手順

  • pip install huggingface_hub hf_transferでモデル取得
  • llama.cppでの起動例(量子化タイプはQ4_K_M等を選択)
  • Windows Powershellではパラメータのクォートに注意
  • LM Studioなど統合UIでも利用可能
    • 思考/非思考トグルが表示されない場合はyamlファイルを取得して設定

397B-A17Bモデルの運用ポイント

  • Gemini 3 Pro、Claude Opus 4.5、GPT-5.2と同等性能
  • フル精度で807GB、4bit量子化で214GB(256GB RAMで推論可能)
  • MoEオフロードで24GB GPU + 256GB RAM環境にも対応
  • 8bit精度は512GB RAM/VRAMが必要

まとめ・活用のヒント

  • Qwen3.5は多様な規模・用途に対応した先進的LLMファミリー
  • 用途・ハードウェア・精度要件に応じたモデル/量子化/推論設定を選択
  • llama.cppやLM Studioでのローカル推論・ファインチューニングが容易
  • 思考モード切替やパラメータ調整で最適な出力制御が可能
  • 最新情報・GGUFファイル・利用手順は公式リポジトリやHugging Faceで随時更新

参考リンク・コマンド例・より詳細な利用手順は公式リソースや各種GitHubページを参照

Hackerたちの意見

35B-A3Bモデルを8GBのRTX 3050で動かしてみたけど、かなり実用的だよ。反応も良いし、やらせたコーディングタスクもちゃんとこなしてくれてる。新しく更新されたモデルを手に入れないとね。古いモデルはツール使用時に時々ループにはまることがあるみたいで、修正されたって言ってた。
どんなコーディングタスクの例を教えてくれる?ローカルがそんなに良いとは思わなかったよ。
それはどのモデルのこと?
システムRAMにオフロードしてるの?トークン/秒はどれくらい出てる?RTX 3060の古いゲーミングノートパソコンがあるんだけど、ローカル推論サーバーとしてうまくいきそうだね。
Qwen3.5 9bは、CPUのllama.cppで動かすとOCRやテキストフォーマットのクリーンアップがかなりできるみたいだけど、ちょっと遅いね。ただ、いろんな方法でコンパイルしてみたけど、GPUオフロードがうまく動かない(Ollamaではできたのに)、古い1650 Tiで4GBのVRAMを使ってると、メモリを取りすぎようとするんだ。
1660tiを使ってるけど、cachyos + aur/llama.cpp-cudaパッケージは問題なく動いてるよ。使えるメモリが約5.3GBで、35Bモデルが圧倒的に能力が高くて、GPUに完全に収まる4Bモデルと同じくらいの速さで動く。9Bモデルも試してみたけど、意外と能力が高かった。ただ、35Bの方が自分のテストケースではまだ良かった。改善に満足してるよ。ただ、qwen 3.5はqwen 3の半分の速度だって気づいた。
ソースからビルドするなら、Vulkanバックエンドが一番簡単にビルドできて、GPUオフロードにも使いやすいよ。
ASUSの5070ti 16Gでlm studioを使って3.5 9Bを動かすと、安定して約100トークン/秒出るよ。これ、ほとんどのオンラインLLMサービスを上回ってるし、出力の質もベンチマークに合ってる。これまで消費者向けハードウェアで使えるモデルを持ったのは初めてだよ。
claudeのコードをこれに向けてるの?オーケストレーションがすごく重要みたいだね。
どのモデル使ってるの?俺も16GBのGPU持ってるけど、今までローカルモデルは使ったことないんだ。記事の表によると、9Bと8ビットは13GB、27Bと3ビットはメモリに収まりそうなんだけど、コンテキストとかでさらにスペースが必要なのかな?
Qwen3.5の27B量子化版があって、重みあたり4ビットで16GのVRAMに収まるよ。品質は2025年夏のSonnet 4.0に匹敵するし、ik_llama.cppでの推論速度はすごく良い。メインのllama.cppでもまあまあ decent だよ。
> これはほとんどのオンラインLLMサービスを上回ると思うけど、同じモデルでの速度のことを言ってるんだよね。他のもっと能力のあるモデルと比べての使いやすさではないと思うけど。(ローカルLLMがSonnetやOpusの代わりになると期待してる人たちに向けて。)
このセットアップでどのくらいのコンテキスト長と関連するパフォーマンスが得られてるの?少なくとも100kのコンテキストがあって、大きな劣化がないのがコーディングタスクには重要だよ。ほとんどの「ローカルで動かしてる」報告は、非常に小さいコンテキストでのテストしかカバーしてないからね。
最適なHW構成やシステムのおすすめは何?
それは状況によるね。ゲーミングPCは小さいモデルには問題ないよ。Appleのハードウェアは、部屋を冷やすために窓を開けなくても、もっと大きなモデルを動かせるからね。お金に余裕があるなら、NVIDIAは特に高くはないし、NVIDIAのAI GPUが満載のサーバーは良いよ。
> 'true' と 'false' は入れ替えて使えるよ。特にLLMの文脈で聞くと笑っちゃった。
ちょっと混乱してるんだけど、「すべてのアップロードはUnsloth Dynamic 2.0を使用します」って書いてあるのに、4ビットのオプションを見ると、IQ4_XS 5.17 GB、Q4_K_S 5.39 GB、IQ4_NL 5.37 GB、Q4_0 5.38 GB、Q4_1 5.84 GB、Q4_K_M 5.68 GB、UD-Q4_K_XL 5.97 GBってあって、何なのか、どんなトレードオフがあるのかの説明がないんだよね。でもチュートリアルではQ4_K_XLをllama.cppで使ってた。俺はmac mini m4の16GBを使ってて、今のところお気に入りのモデルはQwen3-4B-Instruct-2507-Q4_K_Mなんだけど、ちょっとチャットっぽい。Qwen3.5-4B-UD-Q4_K_XLで試したらもっとチャットっぽくて、基本的な質問にはチャットモードで使ってる。ユーザーごとに特有のニーズがあるのは分かるけど、一般的なモデルやハードウェアのリスト、共通の設定パラメータやメモリ使用量が載ってる場所があったらいいな。Redditの特定のチャンネルでも、話は多いけど具体的な設定や使用例があまりないから、ちょっと厄介だよ。このトピックはここ3ヶ月ずっと追ってるけど、明確な情報より混乱が多い気がする。今はQwen CLIでコーダーモデルをクラウドで使って、コスト/ベネフィットの良い結果が出てる。手頃なハードウェアで環境に優しいエネルギー消費のローカルモデルが出てくるのをずっと見守ってる。
自分の4年前のMac M1で、ollamaでqwen3.5:4bを使ってみたんだけど、結構 decent なツールコールをしてたよ。ただ、ちょっと遅いし、複雑なタスクには少し混乱してる感じだった(それに、Rustでコードを書かせたから、余計に複雑になったかも)。タスクは「Xをするデバッグを見つけて、それをCLIの‘/debug foo’で制御される変数に基づいて条件付きにする」だったんだけど、その後はあまり使わなかった。qwen3.5-35bの6bit量子化を試してみるのも面白いかも。4090で動かしたときは結構良い結果が出たから、古いMacでは試さなかったけどね。最近はqwen3.5-27bの8bit量子化をメインエンジンとして使ってて、かなり満足してるよ。ただ、これにはもっとメモリやGPUパワーが必要だけど。参考になれば。
> 一般的なモデルやハードウェアのリストがあって、共通の設定パラメータやメモリ使用量が載ってる場所があったらいいな。 https://www.localscore.ai からMozilla Buildersがこれを提供するはずだったけど、ユーザーが足りないのかな。まだQwen 3.5のエントリーは見つけてないよ。
これがあなたのケースに合った最適な量子化を見つける手助けになるかもね。
ああ、https://unsloth.ai/docs/models/qwen3.5/gguf-benchmarks も役に立つかも - Q4_K_XLとQ4_K_MなどのディスクスペースとKLダイバージェンス(元のフルプレシジョンモデルにどれだけ近いかの指標)のベンチマークを提供してる。Q4_0とQ4_1はより速い推論を提供するはずだったけど、テストでは精度がかなり下がることがわかったから、今は廃止されてる。Q4_K_MとUD-Q4_K_XLは同じで、ただ_XLの方が_Mより少し大きいだけ。命名規則は_XL > _L > _M > _S > _XSだよ。
いくつかのハードウェア構成でPythonタスクのためにGGUF量子化版をベンチマークしてるよ。- 4090 : 27b-q4_k_m - A100: 27b-q6_k - 3*A100: 122b-a10b-q6_k_L Qwenチームの「思考」プリセットを使ったら、非エージェント的なコーディングパフォーマンスは未量子化のGPT-OSS-120Bと比べて大きな飛躍を感じなかったよ。デフォルトのプレゼンスペナルティでmujocoコードに幻覚や繰り返しが見られた。4090の27b-q4_k_mは良い品質で30〜35トークン/秒を生成する。
自分のプライベートベンチマークなんだけど、DeepSeekのコーディング問題への回答を基準にして、Claude Opusをジャッジにした結果だよ。ただ、これらのパーセンテージを読むときは、ノースキルの設定がかなり速いから、ほとんどの状況ではこっちの方が実用的かもしれないってことを考慮してね。 1 │ DeepSeek API -- 100% 2 │ qwen3.5:35b-a3b-q8_0 (思考中) -- 92.5% 3 │ qwen3.5:35b-a3b-q4_K_M (思考中) -- 90.0% 4 │ qwen3.5:35b-a3b-q8_0 (ノースキル) -- 81.3% 5 │ qwen3.5:27b-q8_0 (思考中) -- 75.3% 27Bの密なモデルがもっと高得点だと思ってたんだけど。注意:これらの数字はワンショットの回答評価からのもので、モデルはエージェントとして繰り返すようなコンテキストには置かれていなかったよ。
あなたのベンチマークだけが35B A3Bを27Bより上に置いてるね。人間の判断で確認する時が来た?例えば、思考の痕跡を見てみると、プロンプトに論理的な矛盾があって、それが27Bの推論を妨げてるかもしれない。思考が無効になった時にもスコアに反映されるけど、思考の痕跡を使ってある程度デバッグできるよ。
同じくらいのメモリサイズで、ビット深度とモデルサイズの間でどうやって選ぶの?
一般的には、モデルが大きいほど、パフォーマンスを落とさずに量子化できるけど、小さいモデルは速く動くよ。速度が許容できる限り、低い量子化で大きいモデルを選ぶのが普通は理にかなってる。小さいモデルはKVキャッシュも小さいから、長いコンテキストがより実現可能だしね。結局、使い方次第だと思うけど、70B未満のものに関しては4ビット以下にするのはパフォーマンスの低下に見合わないと思う。BF/FP16とQ8は、ビジョンエンコーダー(mmproj)や本当に小さいモデル(2B未満)を除いては、通常は区別がつかないよ。
9bの4bitは、RTX 4070で約60トークン/秒で動いてて、35b-A3Bは約14トークン/秒で部分的にオフロードしてる。ロールプレイには速い9bバージョンが好きだけど、コーディングタスクにはどちらもあまり使えないし、Claudeはまだまだ優れてるよ。特に雇用主に無制限アクセスをお願いできればね。