ハクソク

世界を動かす技術を、日本語で。

Qwen3.5 122Bおよび35Bモデルは、ローカルコンピュータでSonnet 4.5の性能を提供します

Hackerたちの意見

誇張の匂いがするね。こういう主張をする人たちの中には、実際にこれらのモデルを使った経験があまりないか、使える基準が変わってる人が多い気がする。最近まで、こういう主張はずっとあったけど、「でも、実際には数Kトークン以上のコンテキストは使えないよ」っていう注釈がついてた。
Qwen3-Coder-30B-A3B-Instructは、インラインIDE統合や小さな関数やライブラリコードを扱うには良いと思うけど、今みんながやってるClaudeとかでの一発実装にはあまり向いてないと思う。
「シングルページのウェブアプリ科学RPN電卓を作成」Qwen 3.5 122b/a10b(q3でunslothのダイナミック量子化を使って)は、今まで試した中で本当に使えるRPN電卓アプリを作れる最初のモデルだよ。他のモデル(俺のStrix Haloボックスで動かせるもっと大きいものでも)って、スタックを正しく実装してなかったり、操作ボタンが機能してなかったり、最も一般的にはキーパッドがピカソの絵みたいになってたりする(つまり、10キー部分にボタンが足りなかったり、キーパッド全体にボタンがバラバラに配置されてたり)。これってすごくシンプルなテストのように思えるけど、チャットGPTでも試してみたら(ログインしないときに出てくるモデル)、数値入力ボタンすらなかった。Claude Sonet 4.6は正しくできたけど、これが正解だったのはそれだけだよ。
35bモデルを使ってPCAのポーラス実装を作ったんだ(mathとpolars以外のインポートはなし)。10分もかからずにコードができたよ。最近までポーラスがどれだけひどかったかを考えると、これはすごいことだと思う。(いつもpandasのコードを妄想してたからね。)
最近、M1 MacBook Proで動かすためのガイドを書いたよ。- llama.cpp - OpenCode - Qwen3-Coder-30B-A3B-InstructをGGUFフォーマット(Q4_K_M量子化)でね。全部のパーツを揃えるのがちょっと面倒だったから、これが新しいモデルで使えるといいな。 https://gist.github.com/alexpotato/5b76989c24593962898294038...
あなたのM1ではどれくらい速く動くの?
あなたのMBPは32GBのRAMがあるの?私は16GBでちゃんと動くローカルモデルを待ってるんだ。
LM Studioも動かせて、検索とクリック一つでインストールできるよ。OpenAI互換のAPIを通じてね。
俺の32GBのRyzenデスクトップ(RAM価格がさらに+40%上がる前に16GBからアップグレードしたばかり)で、同じようにllama.cppのセットアップをして(Vulkanの追加ステップも含めて)、Qwen3-Coder-30B-A3B-Instruct(Q4_K_M量子化も)に収束したよ。モデルの選択については、最新のgemmaやministral、他にもいろいろ試したけど、qwenが一番印象的だった(MoEアーキテクチャのおかげで推論もめっちゃ速いし)。だからQwen3.5-35B-A3Bも試してみたいけど、どの量子化を選ぶべきか全然わからない…ランダムでQ4_K_Mを選んだけど、君の量子化の選び方はもっと考えてたの?
定期的にMBP M3 Max 128Gでこれらのモデルを試してるよ(ローカルAIを動かすために買ったんだ)。自分がよく知ってる分野での深い研究質問があって、それを使ってモデルの知識を測ってる。今のところ、Opus 4.6とGemini Proはすごく満足できる結果を出してくれて、かなり早く答えが返ってくる。Geminiは30-50秒で超速いし、Opusは詳細で2-3分くらいかかる。今日はローカルのqwen3.5:35b-a3bで質問を投げたら、なんと45分もかかって、すごく一般的な答えが出てきてエラーもあった。しかも、ノートPCが飛び立ちそうな音を立ててた。何が悪いんだろう?大きなコードベースでエージェント的なコーディングにどう使えばいいんだろう?役立つものを作るのに数日(と3M Peltor X5A)が必要になりそう。
ノートPCでローカルAIモデルを動かすのは変な選択だね。Miniや特にStudioのフォームファクターは、冷却が良くて、同じスペックで価格も安くて、性能やメモリ容量の上限もずっと高いから。
ソネット4.5のレベルはオーパス4.6のレベルじゃないって、シンプルにそういうこと。
まあ、Gemini Proやオーパス4.6はローカルでは動かせないから、ローカルで動かしてるモデルとクラウドプラットフォームを比べてるの?
そうだね、オーパスとGeminiは多分何百台ものH200相当の機材で動いてるから、数十万ドルの推論設備を使ってるんだろうね。ローカルモデルは本質的に劣ってるし、金をかけた最高のMacでも最新世代のNvidia推論ハードウェアには敵わない。ローカルモデルは、たとえ一番大きいものでも、まだ最前線には達してない。ノートパソコンで実行可能なモデル(「実行可能」とは「45分かかって、ノートパソコンがいつ飛び立つかのような音を立てる」ってこと)を考えると、ソネット4.5のパフォーマンスは2世代前のものだし、オーパス4.6はソネット4.5と比べて雲泥の差だよ。
ソネット4.5に同じ質問をしてみたら?このモデルがそれに匹敵するって言われてるから。
> 何が間違ってるんだろう?100bパラメータのオープンモデルを消費者向けのノートパソコンで動かして、プライベートモデルは少なくとも1tパラメータを使って最先端のプロフェッショナルGPUのラックで動かしてるんだよ。ローカルでのエージェントコーディングは「Androidアプリのボイラープレートをくれ」って感じで、「深い研究の質問」じゃないよ、特に君のマシンではね。
mlx-lm使ってたの?Macでのパフォーマンスは良かったよ。残念ながら、リードデベロッパーがAppleを辞めちゃったけど。正直、これらのモデルをMacで試したことはないけど、DGX Sparkでは問題なく動いたよ。君が言ってるような遅延は感じなかったな。
Qwen3.5-122B-A10Bみたいな大きめのモデルを使ってみて。コンテキストに応じて4/5/6ビットに量子化すればいい感じ。Macのハードウェアで最高のトークン速度を求めるならMLXバージョンがオススメ。もしmlx-community/MiniMax-M2.5-3bit(約100GB)みたいなのが動かせるなら、35b-a3bよりも結果がずっと良くなると思うよ。
君は何も悪いことしてないよ。中国のモデルは宣伝ほど良くないんだ。驚きだね!
まず第一に、熱制限のあるマシンで長時間の負荷のかかる作業をしてるってこと。MacBook Proはポータビリティとバッテリー寿命に最適化されてて、負荷の下での最大性能には向いてない。Appleは薄さを重視してるから、熱性能が犠牲になってる。短いピークは大丈夫だけど、45分のタスクは冷却システムを完全に使い果たすよ。サーバーでも同じことが起こることがある。うちの職場には2Uサイズのサーバーがあって、250WクラスのGPUが2つ入ってるんだけど、ケースファンを100%に固定すると、GPUタスクのパフォーマンスが30%向上して、私たちのユースケースでは数日早くなる。実際、機器室の外でファンの音が聞こえるけど、まあ気にしないよね(笑)。でも、ノートパソコンは比べ物にならない。デスクトップGPUやHBM3を搭載したものの方がずっと良く動く。ローカルモデルは大量のコンテキストを使うと遅くなるし、MacBook Proのメモリ帯域幅はPCよりはマシだけど、やっぱり素晴らしいわけじゃない。重いタスクはローカルモデルには向いてないね。私は簡単なものはローカルでやって、本当に最高のものが必要なときはクラウドを使うようにしてる。ローカルモデルが同等だとは思わないけど、多くのタスクに対してそれが必要だとも思わない。
新しいMBP M5 Max 128GBを買おうか考えてるんだけど(来週発売されると仮定して)。今の段階で「将来のために準備する」ってのはほぼ不可能だってわかってるけど、Rustコードをローカルで書くためには(今のところMLXでQwen 3.5を使う予定)、AIたちがこれが即効性があってある程度の長持ちもするベストな選択だって納得させてくれた。ポータビリティも保てるし(厳密には必要ないけど、あったら嬉しい)。それかRTXオプションやMac Studioも考えてたけど、統一メモリのためにAppleに傾いてる。HNはどう思う?
同じことを考えてたんだけど、今はやめとくことにした。Claude Code Max 20を使ってるから、ROIは2年以上かかるかも。CCは4~6ウィンドウで無制限にコーディングできるから、品質やスピードの面でこれを上回るモデルはないと思う。今は賭ける気にはなれないな。サブスクリプションならいつでも変更できるし、マシンを使うと、すごいモデルが出ても138GB必要になって、両方にお金がかかるリスクがあるからね。
> HNはどう思ってる?熱問題。ワークロードは、必然的に熱くなったら厳しく制限されるよ。MBPみたいなノートパソコンでのLLMが期待外れな理由については、スレッドの他のコメントを見てみて。スタジオ形式の同じチップなら、もっとパフォーマンスが良くなるはずだよ。
SWEチャートのフロントページにClaudeが載ってないのは残念だね。データの見せ方が面白い。自由にミックス&マッチしていいよ。大人たちが公立学校レベルのずる賢さを見せてる。これだけで君のLLは失格だね。ビジネスやマーケティングのリーダーは、平均的な開発者よりも賢いことが多いから。
これが初めてなら知っておいてほしいんだけど、オープンソースのモデルはベンチマーク最適化ゲームをしてるんだ。新しいオープンウェイトモデルは、数ヶ月前のSOTAと同じくらい良いって約束して出てくるけど、実際に使うといつも期待外れなんだよね。Qwen3-Coder-NextとQwen3.5モデルをそれぞれリリースされた時から遊んでるけど、すごいけど、私の経験ではSonnet 4.5レベルではないよ。すごくしつこく設定されてるのを観察した。テストを通過させるために目標を慎重に制約すれば、何度も試行錯誤を続けるよ。壊れた時計が1日に2回正しいように、いろんな問題を「解決」するけど、そこにたくさんのもたつきがある。とはいえ、オープンソースモデルとしては印象的だよ。今の自己ホスティングでできることはすごい。ただ、これらがSonnet 4.5レベルのモデルだなんて信じない方がいいよ。複雑なことに手を出すと、すごくがっかりするから。
ベンチマークに欠陥があるって言ってるの?量子化が予想より悪い結果の一因かもしれないね。
KPIによる死。経営陣がベンチマックス以外のことをするのをリスクが高すぎるって思わせてる。これがアメリカのAI企業の死因にもなるだろうね。最終的には、モデルが実際には良くなっていないことに人々が気づいて、お金の流れが止まるだろう。でも、安いGPUが市場にあふれて、大学が自分たちのクラスターを持つようになる今は、研究の黄金時代かもしれない。
すべてのモデルがそうしてるよ。オープンソースだけじゃなくてね。クラウドのやつは、実行時間にも影響を与えられるから、もっとやってると思う。
確かにいいポイントだね。私も遊んでみて、同じ結論に達したよ。
敬意を表して言うけど、私の経験と数十億のトークンを消費した結果、一部のオープンソースモデルは本当に強力で役立つよ。特にStepFun-3.5-flashはすごい。今、かなり複雑なRustのコードベースに取り組んでて、何百もの統合テストと非自明な並行性があるけど、stepfunはそれをスムーズに処理してくれる。私はstepfunとは関係ないけど、このパフォーマンスを196B/11Bのアクティブエンベロープに詰め込んだチームには深い敬意を表してる。
オープンソースだけじゃないよ。価値のあるベンチマークは、スケールアップできるダイナミックなものだけだね。
「指標が目標になると、それはもはや良い指標ではなくなる。」ゴードハートの法則は、人やシステム設計、プロセッサ設計、教育などに現れるよね。実際の応用や良心が介入しない限り、モデルはテストに過剰適合しちゃう。これは機械学習の古い話だよ。
> 実際に使うといつも期待外れだよね。個人的にはKimi 2.5に切り替えて、全然失望してないよ。大手と比べてずっと安いし(そう、ローカルで動かしてるわけじゃないけど、できるのがいい)、ちゃんと機能するし、媚びないのがいいね。「それは素晴らしいアイデア!」とか「いいポイントだね」みたいなコメントなしでコーディングの問題が解決できるのが嬉しい。少なくともKimiでは、ベンチマークを超えることよりも良い開発者体験が二次的な目標だったと思うよ。
最新のオフライン/プライベートなエージェントコーディングベンチマークのリーダーボードってある?もしテストがどこにも公開されてなくて、標準的な問題とは十分に異なるなら、意図的な過剰最適化に対してベンチマークが頑丈だと思うよ。編集:これらはなかなか良さそうで、一般的に私の期待に合ってるね: https://www.apex-testing.org/
だいぶ良くなってきたけど、まだまだだし、Sonnet 4.5の性能には全然及ばない。これらのオープンモデルは、狭い制約のあるドメインで、良い入力/出力の例があるときにすごく役立つ。通常はプロンプトの拡張、感情分析、コードのフォーマット変更や流れの再配置に使ってる。曖昧な説明から問題を解決するのが苦手だと感じる。Qwen 3.5は、今まで見つけたOSSモデルの中で一番良い(前の王者であるGPT 120b OSSを超えてる)で、無制約な状況で本当の知性を示し始めてるけど、まだ完全には達してない。RTX 6000 Proを持ってるから、Qwen 3.5は無料で使えるけど、安く済ませたいときはComposer 1.5に頼ることが多い。でも、トレンドはすごく励みになる。年末までにローカルで動くGPT 5.2相当が出ると期待して、ビデオカードを買ったけど、順調に進んでると思う。
多くのローカルユーザーが忘れがちな大事な部分は、推論が難しいってこと。温度が間違ってるかもしれないし、最小Pが間違ってるかもしれない。テンプレートが間違ってるかもしれないし、llama cppの実装にバグがあるかもしれない。Q4やQ8はBF16と比べられないかもしれない。現実は、LLMの推論にはたくさんの調整があって、どれか一つが体験を悪化させることもある。必ずしもモデルのせいではないよ。
パラメータの生のスケールはパワーだね。大きなモデルから小さなモデルにパフォーマンスを引き出すことはできないよ。
私はLLMに関しては完全な初心者で、最近になって内部をちょっと探り始めたばかりなんだ。最初に気づいたのは、float32の次元がかなり寛大に見えたこと。次に、バイナリ量子化についてのブログ記事を読んで、量子化が何かを発見したんだ。それは本当に良すぎるように思えた。クラウドに1、2、4、8ビットの量子化の忠実度を評価する分析を設計してもらったんだ。クラウドは良い仕事をして、公共のソースから10,000の埋め込みをダウンロードして、各量子化レベルに対してfloat32 SoTとの類似度スコアと相関係数を計算してくれた。1ビットと2ビットの量子化は約90%の類似度で、8ビットの量子化はクラウドが結果を表示するために使った精度のおかげでロスレスだった。4ビットは興味深くて、99%の類似度(ほぼロスレス)でありながら、8ビットの半分のサイズだった。これがちょうどいい感じだった。分析には1時間しかかからなかったから、「これはクールだけど、本当にそうなの?」って思ったよ。この分野のプロが実際に4ビット量子化を使っているのを見ると、嬉しいね。