ハクソク

世界を動かす技術を、日本語で。

Qwen3.6-27B: 27B密モデルにおけるフラッグシップレベルのコーディング

5時間前原文(qwen.ai)

Hackerたちの意見

27Bモデルがopusに匹敵するかはちょっと疑問だな…
小さいモデルがどれだけ良くなったか、驚くと思うよ。モデルのサイズだけが全てじゃないからね。
これらのベンチマークの中には、簡単に操作できるものもあるらしい。どれに注目すればいいの?
少なくとも1年くらい前から、データの質とファインチューニングが中程度のモデルの改善の主な要因だって明らかになってる。サイズは専門的で狭い用途、例えばコーディングには質とは違うからね。エンジニアがより良いコード例や推論トレースを取り入れられると、モデル同士が飛躍的に進化するのも驚きじゃないよ。そうすることで、より高品質な出力が得られるからね。
疑ってかかるべきだよ。ベンチマークレースは、オープンウェイトLLMの今のメタゲームだからね。リリースのたびに「SonnetやOpusと同じくらい良い」って言われるけど、実際に試してみると(フルウェイトでも)全然そんなことないんだよね。でもサイズの割にはすごいよ!
Opus 4.5だけど、3.5がすごく良かったし、qwopusのファインチューニングも良かったから、あんまり驚いてないよ。モデルはさらにRLから大きな恩恵を受けることが示されてるしね。
小さなモデルは、特定の狭い領域では「Opusに匹敵する」ように作れるけど、実際にコードを書くとその特定の領域を離れるとすぐにダメになっちゃうんだ。要するに、スキルはあるけど知恵が足りないって感じ。これくらいのサイズだと、同じくらいの文脈知識は全然足りないだろうね。それでも、もっと専門的なツールの文脈や、正しい方向に強くプロンプトをかけるハーネスの中では役に立つかもしれないし、「賢い」大きなモデルのサブエージェントとして、全体の計画を指示して結果をレビューする役割も果たせるかも。
試してみるべきだよ。Qwen 3.5 27Bはシステムプログラミングの作業にすごく感心してる。仕事ではOpusとSonnetを使ってて、家では遊びでQwen 3.xを使ってるけど、システムプログラミングにはどのモデルも慎重なガイダンスが必要だから、あんまり違いを感じないんだよね。ランディングページとかを一発で決めようとは思ってないし。
モデルの発表の際には、今日どの(消費者向け)ハードウェアで動かせるか、コストやトークン/秒も示してほしいな。
彼らが直接リリースする27Bモデルは、16ビットでネイティブに動かすにはかなりのハードウェアが必要になるんだ。MacやStrix Haloの128GBシステム、複数の高メモリの消費者向けGPU、またはRTX 6000のワークステーションカードが必要だね。だから、どの消費者ハードウェアで動くかを宣伝しないんだ。彼らが直接リリースするモデルは、普通の消費者システムには収まらないから。ほとんどの消費者は、直接リリースされたモデルを使っていないんだ。彼らは、重みあたりのビット数が少ない量子化モデルを使っている。量子化にはトレードオフがあるから、量子化版を使うと、彼らが宣伝している正確な結果は得られないけど、より小さなハードウェアに収めることができる。前の27B Qwen3.5モデルは、品質の損失に対するしきい値によってQ5やQ4まで合理的なパフォーマンスを発揮していた。これなら、32GBの追加RAMを持つ統合メモリシステム(MacやStrix Halo)で使えたから、一般的には64GBのMacが必要だったね。また、32GBのRAMを持つnVidia 5090や、16GBまたは24GBのGPUを2枚使っても動かせたけど、分割されるから速さは落ちる。iPhoneや小型システムでこれらのモデルを動かせるっていう主張には注意が必要だよ。すごく小さなシステムで動かすためにいろんなトリックや重い量子化を使うことはできるけど、出力の質は使い物にならない。SNSで「このモデルをこの小型ハードウェアで動かした」っていうリポジトリを投稿するトレンドがあるけど、実際の出力は良くないことが多い。
M4で32GBのRAMを使って、だいたい5トークン/秒くらい出てるよ。コマンドはこんな感じ: llama-server \ -hf unsloth/Qwen3.6-27B-GGUF:Q4_K_M \ --no-mmproj \ --fit on \ -np 1 \ -c 65536 \ --cache-ram 4096 -ctxcp 2 \ --jinja \ --temp 0.6 \ --top-p 0.95 \ --top-k 20 \ --min-p 0.0 \ --presence-penalty 0.0 \ --repeat-penalty 1.0 \ --reasoning on \ --chat-template-kwargs '{"preserve_thinking": true}' 35B-A3Bモデルは約25トークン/秒だよ。比較のために、A100(メモリが多いRTX 3090相当)では、それぞれ41トークン/秒と97トークン/秒だね。27Bモデルはまだ試してないけど、35B-A3Bはだいたい15k-20kトークンのコンテキストを超えると調子が狂うことが多い。基本的なことは信頼性を持ってやらせられるけど、「フロンティア」モデルのレベルには達してないね。
4ビット量子化のQwen3.5-27Bは、24GBのカードで問題なく動かせるよ。Nvidia L4カードを2枚使って、いくつかの追加のvllmフラグを設定すれば、10人の開発者に対して20-25トークン/秒でサービス提供できてる。オフピーク時は約40トークン/秒だね。開発者たちはそのパフォーマンスに満足してるけど、もちろんもっとスループットを上げるためにGPUを増やしてほしいってリクエストしてる。
プロバイダーが同じ詳細を提供していない場合、これらが役立つかもしれないね。もちろん、新しくリリースされたモデルがこれらのサイトに追加されるのを待たなきゃいけないけど。 https://llmfit.io/ https://modelfit.io/
このモデルは密度が高くてサイズも大きいから、4ビット量子化はほぼロスレスでできるんだ。それを使えば、3090/4090/5090で動かせるよ。5090ではFP8もいけるかもしれない(ただしトレードオフはあるけど)。5090で約70トークン/秒、4090/3090ではその半分くらいだね。推測的デコーディングを使えば、さらに速くなる(2-3倍くらいかな)。ローカルで得られるものは本当にすごいよ。
8ビット量子化(q8_0)で、Radeon R9700を使ってると1秒あたり20トークン出てるよ。
Qwen3.5-27bでは、128GBのStrix Haloボックス(Framework Desktop)で20から25トークン/秒くらい出てるよ。8ビット量子化でね。使えるけど、時々待たされることもあるかな。でも大体は問題ないと思う。Qwen3-coder-next(80b MoE)は36トークン/秒で動かせるよ。早くQwen3.6-coderがリリースされるといいな。
Apple Mac用には、こちらがあるよ: https://omlx.ai/benchmarks
https://www.canirun.ai/ をチェックしてみてね。(https://news.ycombinator.com/item?id=47363754)
LLMをローカルで動かすためのCPU/GPUの組み合わせは無限にあるよ。ほとんどの人は、自分が買えるシステムを選んで、目標に大体合うものを選んで、モデルサイズや量子化を見ながらVRAM使用量を大まかに見積もるんだ。もっと詳しい分析が必要なら、いくつかのオンラインVRAM計算機があるよ。これが一つ: https://smcleod.net/vram-estimator/ Hugging Faceのアカウントがあれば、自分のシステム構成を設定して、サイドバーの各量子化の横に小さなアイコンが表示されるよ。(緑:たぶんフィットする、黄:ぎりぎりフィット、赤:フィットしない)さらに、t/sはたくさんの異なる要因に大きく依存するから、最良の結果はコンテキストサイズに基づいた推測になるかも。今、ローカルでLLMを動かすことについて一つ言えるのは、どこにでもトレードオフがあって、個々のタスクに合わせて何を最適化するかを選ばなきゃならないってことだね。
これ、24GBのVRAMを持つ3090にぴったり収まりそうだね :)
そうだね!小さい量子化モデルは24GBに収まるけど、コンテキストの長さを犠牲にするかもしれない。Pro MシリーズのMacの32GBメモリで、長いコンテキストでも受け入れられるトークン/秒が得られるか試すのが楽しみだよ。HuggingFaceはすでにいくつかのMLXバージョンをアップロードしてるしね。
4ビット量子化だと、かなりうまく収まるはずだよ。
良いニュースだよ!ちょっとしたリマインダー:これらの無料モデルの「最終的な」品質を判断するには、数週間待った方がいいよ。多くのモデルは、推論バックエンドに接続したり、悪い設定で遅くなったりする隠れたバグに悩まされることがあるからね。開発コミュニティは通常、最も目立つ問題を見つけるのに1〜2週間かかるよ。中には、llama.cppのようなツールにパッチが必要なものもあるし、特定のデフォルトオプションを避ける必要があるものもある。Gemma 4には、1〜2週間で解決された問題があったよ。このモデルもきっと同じだろうね。最初の印象は鵜呑みにしない方がいいよ。
新しいLLMを試す人にはいいアドバイスだね。バグは下流の実装や量子化から来るもので(ツールのバグを引き継いでる)、ツールをアップデートしたり量子化を再ダウンロードしたりするのを2-4週間繰り返すことになると思っておいた方がいいよ。量子化を最初にリリースしたり、人気のあるツールにPRを最初に提出したりするための競争が激しいけど、アップロードする前にあまりテストされていないことが多い。もしローンチ週にこれらを試すなら、君がテスターだよ。 :)
このモデルではあまり起こりにくいと思うけど、ほぼ確実に3.5 27bのさらなるRLトレーニングの続きだからね。このアーキテクチャのバグは、その時に解決されたんだ。
ペリカンが自転車に乗ってるSVGを生成してみて: https://codepen.io/chdskndyq11546/pen/yyaWGJx ドラゴンがホットドッグを食べながら車を運転してるSVGも生成してみて: https://codepen.io/chdskndyq11546/pen/xbENmgK 完璧とは言えないけど、これらのモデルがどれだけ強力になれるかがよく分かるね。
ドラゴンの画像には片目とか変な尾とか問題があるけど、ペリカンは個人的に完璧だと思う — 見た中で一番いい!
これがあまりにも有名な「ベンチマーク」になったせいで、モデルがすでにそれに対してトレーニングされてるのかな?
これを待ってたんだ!C、C++、Verilogのコーディングで3.5-27bを使って結構成功してるよ。今はProプランでClaudeの利用が減ってきたから、助かってる。もし彼らのベンチマークが正しければ、3.5よりも改善されてるってことは、Claudeをさらに使わなくなるかもね。
このモデルのQ4-Q5の量子化は、24GBのVRAMと64GBのRAMを搭載したゲーミングノートPCでうまく動くよ。大体$3,500くらいで手に入るし、好みによっては新しいMacbook Proとの利点・欠点が面白い。Linuxもこういうマシンでの動作がさらに良くなってる。
$3,500でそんなにVRAMとRAMがあって、Linuxサポートもそこそこ良いノートPCってどれ?2021年のAsus Zephyrus G14をアップグレードしようと思ってたけど、値段がすごく高くてさ。結局、もう1年そのまま使うことにしたよ。でも、イギリスで探してたから、そっちでは価格がさらに高騰してるのかも。
A3B-35Bは、十分なVRAM/RAMを持つノートPCに向いてるね。ただ、この密なモデルはほとんどのカードで帯域幅が制限される。5090RTXモバイルは896GB/sだけど、5090デスクトップは1.8TB/sだし、ほとんどのモバイルチップはそれよりずっと小さい帯域幅だから、デスクトップコンピュータみたいに全体的にスピードがすごいわけじゃないよ。
OpenAIやAnthropicには、QwenやMinimaxみたいな企業がオープンソースモデルを出して、OpenAIやAnthropicよりも下だけど似たようなベンチマーク結果を示してる時に、どんな競争優位性があるの?それに、これらのオープンソースモデルのトークン価格はAnthropicのOpus 4.6のほんの一部だよ。[1] [1]: https://artificialanalysis.ai/models/#pricing
OpusとQwenモデルを使ってるけど、二つの間のギャップはベンチマークチャートが示すよりもずっと大きいよ。ホスティングモデルと比較したいなら、GLMのホスティングモデルを見てみて。今のところ大手プレイヤーに一番近いと思う。最初はすごく安く売ってたけど、最近は値上げし始めたね。
もしこの結果がバンパイアの攻撃によるものなら、周りの人たちが答えを吸い取るときにそれを汚す方法を見つけたら、結果はそんなに良くなくなると思う。あと、日常の流れで使うときには、そんなに良くないかも。浅い推論には使えるけど、コーディングや難しいことには向いてない気がする。少なくとも、オープンなものではクローズドなものと同じくらい良いのは見つけられなかったな。もしいい設定があったら、ぜひ教えてほしい!
コーディングでは、マージナルな品質が重要だよね。スパムメールやHNの投稿を大量に作るのとは違うから。だから、中央値のエンジニアとP99のエンジニアの間のマージナルな差はかなり大きいけど、中央値のピック&パッカーとP99のピック&パッカーの間の差はそうでもない。フロンティアのショップを競争力のある状態に保つためにも、今のR&Dにコストをかけるのは、より良い製品を作るために必要だと思う。特にAnthropicは、より信頼できるショップを目指してるからね。アリもサービス収益のために有料のフロンティアモデルをホスティングしてるけど、中国のショップじゃないなら、自分のプロダクションコードの開発を中国のホスティングプロバイダーに任せる?OpenAIも怪しいけど、少なくともデータを貿易秘密のために大量に掘り起こしてるわけじゃないという微妙な自信はあるかな。Anthropicの方が少し信頼できる。だからプレミアムがつくんだよね。中国のホスティング企業が競争優位を得るためにマスでトロールして、政府や他の競合企業に情報を渡してないなんて、誰も信じてないよ。歴史的な前例があまりにも確立されてるから、みんなそれを考慮に入れてる。
Opusのトークン価格が高いってことは、君の主張を弱めてるよ。だって、それは人々がそのモデルにもっとお金を払う意欲があるってことを示してるからね。新しいOpenAIやAnthropicのモデルは、オープンソースより明らかに優れてるんだ。オープンソースが使えないわけじゃないけど、最前線のものは確実に良くて、これからもそうだと思う。SWEの時間が1分1ドル以上かかる今、会話に10ドルかけて10分節約できるなら、それは多分価値があるよね。それに、コードの場合、ほんの少し質が良くなるだけで節約できる時間がかなり大きいことが多いんだ。
M4のMBPでQwen 3.6 35BとGemma 4 26Bを使ってるけど、Opusには及ばないものの、必要な95%は満たしてくれてて、すでにすごいよ。全部ローカルで動くからね。
95%って具体的にどういう意味か、もう少し詳しく教えてくれる?興味があるのは2つの側面なんだけど、1つ目は精度 — 出力品質(4.5か4.6)の点でOpusの95%の精度なの? 2つ目は能力的に — ツールを呼び出してエージェント的な作業をする際のOpusとの比較での95%の精度はどうなの?例えば、旅行計画とか。
ペリカンは16.8GBの量子化されたローカルモデルとしては素晴らしいよね。https://simonwillison.net/2026/Apr/22/qwen36-27b/ M5 Proで128GBのRAMで動かしたけど、実際にはそのうちの約20GBしか必要ない。32GBのマシンでも問題なく動くと思う。性能の数字はこんな感じ:読み取り:20トークン、0.4秒、54.32トークン/秒 生成:4,444トークン、2分53秒、25.57トークン/秒 Opus 4.7からもらったペリカンよりこっちの方が好きだな。https://simonwillison.net/2026/Apr/16/qwen-beats-opus/
今回は本当にトレーニングセットに入ってる気がする。あまりにも良すぎるからね。他のテストも実行して、違いを見てみてくれない?