Qwen 3.5をローカルで実行する方法
47日前原文(unsloth.ai)
概要
- Alibabaが開発した最新モデルファミリーQwen3.5の概要
- 多言語・マルチモーダル推論、長文コンテキスト対応
- Smallシリーズを含む多様なパラメータ規模
- 推論・ファインチューニング・利用手順の解説
- 最適なハードウェア要件・推論モードの選択指針
Qwen3.5 モデルファミリーの特徴
- Qwen3.5はAlibabaが開発した最新のマルチモーダルLLMファミリー
- Qwen3.5-35B-A3B、27B、122B-A10B、397B-A17B
- Smallシリーズ:0.8B、2B、4B、9B
- 強力な推論性能と多言語対応(201言語)
- 最大256K(262,144)トークンのコンテキストウィンドウ(YaRNで最大1Mまで拡張可能)
- エージェント的コーディング、画像認識、チャット、長文処理に優れる
- 35B/27Bモデルは22GB RAMのMac等でも動作可能
- GGUF形式(Unsloth Dynamic 2.0等)で配布、量子化アルゴリズム改善済み
- Unsloth Dynamic 2.0による4bit量子化で重要レイヤーは8/16bitにアップキャスト
- ツールコーリングやチャットテンプレートの改善により安定性向上
推論・ファインチューニングの基本
- GGUFファイルをHugging Face等からダウンロード
- llama.cpp互換のバックエンドで高速ローカル推論
- GPU非搭載の場合は
-DGGML_CUDA=OFFでビルド - llama.cppの最新版はGitHubから取得
- GPU非搭載の場合は
- Unslothを用いたファインチューニングも可能
- **推論時はモデルファイルサイズ以上の合計メモリ(VRAM+RAM)**を確保推奨
- メモリ不足時はSSD/HDDオフロード対応だが速度低下
モデル選択と推奨ハードウェア
- 推論用メモリ要件例
- 9Bモデル:12GB RAM/VRAM
- 27Bモデル:18GB RAM/VRAM
- 35Bモデル:24GB RAM/VRAM
- 122Bモデル:70GB RAM/VRAM
- 397Bモデル:256GB RAM/VRAM(4bit量子化時)
- 27Bと35B-A3Bの比較
- 27B:精度重視で省メモリ
- 35B-A3B:高速推論重視
推論モードとパラメータ設定
- 思考(Thinking)モードと非思考(Non-thinking)モードの切替
- 一般タスク:思考モード(
temperature=0.7, top_p=0.8, presence_penalty=1.5等) - 精密コーディング:非思考モード(
temperature=1.0, top_p=0.95, presence_penalty=0.0等)
- 一般タスク:思考モード(
- **Smallシリーズ(0.8B, 2B, 4B, 9B)**はデフォルトで思考モード無効
- 有効化には
--chat-template-kwargs '{"enable_thinking":true}'を指定
- 有効化には
- 繰り返し防止には
presence_penaltyを調整(高すぎると性能低下に注意)
GGUFダウンロードと推論手順
- pip install huggingface_hub hf_transferでモデル取得
- llama.cppでの起動例(量子化タイプはQ4_K_M等を選択)
- Windows Powershellではパラメータのクォートに注意
- LM Studioなど統合UIでも利用可能
- 思考/非思考トグルが表示されない場合はyamlファイルを取得して設定
397B-A17Bモデルの運用ポイント
- Gemini 3 Pro、Claude Opus 4.5、GPT-5.2と同等性能
- フル精度で807GB、4bit量子化で214GB(256GB RAMで推論可能)
- MoEオフロードで24GB GPU + 256GB RAM環境にも対応
- 8bit精度は512GB RAM/VRAMが必要
まとめ・活用のヒント
- Qwen3.5は多様な規模・用途に対応した先進的LLMファミリー
- 用途・ハードウェア・精度要件に応じたモデル/量子化/推論設定を選択
- llama.cppやLM Studioでのローカル推論・ファインチューニングが容易
- 思考モード切替やパラメータ調整で最適な出力制御が可能
- 最新情報・GGUFファイル・利用手順は公式リポジトリやHugging Faceで随時更新
参考リンク・コマンド例・より詳細な利用手順は公式リソースや各種GitHubページを参照