ハクソク

世界を動かす技術を、日本語で。

Qwen3.6-Max-プレビュー: より賢く、より鋭く、進化し続ける

4時間前原文(qwen.ai)

Hackerたちの意見

Opus 4.5と比べてるけど、正直言ってこれらを素直に受け取るのは難しいな。Opus 4.7は新しいから期待してないけど、Opus 4.6はもうかなり前から出てるしね。
お金に余裕があるなら、Codex 5.4やOpus 4.7、SOTA以外は考える価値もないよ。でも、多くの人にとっては、コストと相対的な品質のバランスが大きなポイントだよね。Claudeのサブスクリプションを使ってる人たちも、コストや使用のプレッシャーでOpus 4.7を選んだり選べなかったりしてるし。価値と品質のバランスで、Sonnetや古いOpusを使ってることが多いよ。
一番比較しやすいものと比べるのが基本だよね。どんな場合でも、提供者が出すベンチマークは偏ってるから、モデルがうまくいくフレームワークを選ぶし、他は省くことが多い。独立したベンチマークが一番信頼できるよ。
「かなりの時間」っていうのは、ちょうど2ヶ月ちょっとのことだよね。今は確かにそうなんだけど、やっぱりちょっと受け入れがたいな。
Opus 4.6のパフォーマンスはここ数ヶ月でめちゃくちゃ不安定だったから、トークンを無駄にするのはもったいないよね。
Sonnet 4.6がリリースされたとき、OpusからSonnetにデフォルトを切り替えたんだ。Opus 4.5と同じくらいの性能だったからね。4.6と4.7は「より良い」けど、大半のタスクに対してはその差が小さすぎて、コスト削減がそのレベルに留まる正当な理由になってる。もしもっと安いモデルがそのレベルに達するなら(GLM 5.1もかなり近いから、俺はよく使ってる)、それは大きなことだし、Opus 4.5と比較する正当な理由になるよね。
でも、Opus 4.5が「十分良い」レベルに達したのは事実だよ。私がLLMを使ういろんな問題に対してね。それ以前は、開発タスクにAIを使うのはあまり生産的だとは思わなかった。いつも何かを幻覚して、時間を無駄にするから。それは良いトレードじゃなかった。でも、もし何らかの理由でOpus 4.5のレベルで止まってしまって、より良いモデルが出てこなかったとしても(4.6や4.7は少しだけ良くなってるけど、主にできる作業の幅が広がるだけで、ウェブアプリを作るのが上手くなるわけじゃない)、Opus 4.5でかなりの実作業が早くできるから、ソフトウェア開発はみんながほとんどのコードを手書きする時代には戻らないと思う。Opus 4.5と同じくらいの性能(もしくは簡単に操作できるベンチマークによると少しだけ良い)で、価格が10分の1なら、多くの人にとっては魅力的な提案だろうね。月100ドル以上でOpus 4.7を手に入れる価値は、西洋の開発者にとっては十分にあるよ。低価格モデルが無駄にする時間は、最も高価なモデルを使うコストよりもずっと高いからね。今後しばらくは、私の時間を無駄にせず、より良い結果を出してくれるモデルにプレミアムを払っていくつもりだよ。でも、物事がどれだけ早く進むかは驚きだね。比較的控えめなハードウェアで動かせるオープンモデルが、2年前の最先端モデルと競争できるんだから。普通のハードウェア、例えばパワフルなMacbookやStrix Halo、最近の24GB/32GB GPUでQwen 3.6 MoE 35B A3Bや大きなGemma 4モデルを動かせるんだ。AI以前の時代の平均的な開発者のノートパソコンとあまり変わらない価格だよ。そして、コードも書けるし、そこそこの文章も書ける(Qwenはコードが得意で、Gemmaは文章が得意だね)。ツールも使えるし、実作業に十分なコンテキストウィンドウもある。まだOpus 4.5には及ばないけどね。とにかく、今は複数のモデルを使ってる。セキュリティやコードレビューにも使ってるけど、Claude CodeとOpusがほとんどのソフトウェア開発タスクにはやっぱり最適だね。Qwenも試してみるつもりだよ。彼らの小さいモデルは、期待以上のパフォーマンスを発揮するから、大きいモデルもきっと気に入ると思う。
Opus 4.6と比べるのは難しいね。Anthropicがアカウントを禁止したり、ユーザーを国家支援のハッキングだと非難する可能性があるから。
Opus 4.6は2月にリリースされたよ。これらのベンチマークをちゃんと実行するのには結構時間がかかるんだ。
面白いのは、ローカルで動かせるQwenモデルの全範囲については知ってるけど、クラウドモデルについては全然知らなかったこと。3.5のモデルは全部知ってたし、3.6も一つだけ知ってたけど、Plusのことは今まで聞いたことなかったよ。
彼らのPlusシリーズは、Qwenチャットが利用可能になったときからあったと思う。少なくとも、去年の初めにそのPlusモデルを試した記憶があるよ。
OpenAIのモデルが比較に使われてないのが変だと思うけど、Z GLM 5.1が使われてるのはどういうこと?Z(GLM 5.1)ってそんなにすごいの?もしこのベンチマークでOpus 4.5を圧倒してるなら、HNでCCやCodexを使う人たちが集まったっていう記事がたくさん出てるはずだよね。
うん、GLM 5.1は本当にそれくらいすごいよ。今のClaudeが1月や2月の時よりも良いとは思わないけど、今のClaudeと似た感じで、パフォーマンスがより安定してる気がするから、もしかしたらそれ以上かも。
おそらく、OpenAIは異なる市場を持っていると判断したんじゃないかな。だから、開発ツールに焦点を当てている企業、つまりClaudeやGLMとだけ比較してるのかも。
GLM 5.1はかなり良いよ。今のところ、アメリカ以外で利用できるエージェント型コーディングモデルの中ではベストかも。ただ、GLM 5.0と5.1は、使うのがイライラするくらいの可用性とパフォーマンスの問題があったんだ。最近、GLM 5.1がゴミみたいな思考トレースを出してたけど、今はそれが修正されたみたい。
最近2週間、Sonnetの安い代替としてGLM 5.1を使ってるけど、すごく良いよ。SonnetとOpusの間くらいかな。ただ、ちょっと遅いけどね。
OpenCode Goを通して使ってるけど、限られた経験の中ではまあまあ良い感じ。Opusと直接比較できるようなことはまだやってないけど、ちょっと複雑なタスクを与えたら、かなり感心したよ。Tiltdev、K3S、pnpmモノレポのローカルセットアップがあって、ウェブアプリの開発サーバーが動かなかったんだけど、GLMはコンテナを調べた後、コンテナイメージのビルドキャッシュの問題だと正しく判断して、Tiltfileとビルドセットアップを修正してくれた。
実際、Qwenが同業者と比較してるのは評価できるね。俺や知り合いのエンジニア数人もGLMを試してるけど、マジでいいよ。CodexやOpusとは全然違うけど、安くて「十分良い」って感じ。基本的にGLMにプログラムを解決するように頼んで、10〜15分離れて戻ってくると、問題が解決されてる。
GLM-5はいいよ、本当に良い。特に価格を考慮するとね。3ヶ月で7ドル払ったし、CCよりも多く使える。ユーザーに容量を供給するのが難しいみたいだけど、メールでそれを認識してるって言ってた。ピーク時にはパフォーマンスが落ちるけど、俺は一番安いプランに入ってるから、その時間帯に需要が優先されないのは理解してる。
HNのコメント欄の人たちは、最新の動向についてちょっと遅れ気味な感じがするし、時には完全に見逃しちゃってることもあるよね(Kimi K2.5がその一例)。多くの人は、Twitterのゴタゴタをかき分けて最新の意見を探るのに労力をかけたくないから、驚くことじゃないよ。ここにいる多くの人は、今でもOpus 4.5/4.6/4.7の出力を好むだろうけど、最近はAnthropicが選んだ美的な選択に依存してる感じだね。
GLM 5.1は、ClaudeやCodex以外でサブスクリプションを払う価値があると思った初めてのモデルだよ。実際の使用ではOpus 4.5に負けてるわけじゃないけど、Sonnetとほぼ同じくらい使えるから、いろんなタスクで代替可能だね。ただ、一部の「節約」は、似たような複雑さのタスクに対してトークンを多く使うせいで消えちゃうみたい(まだデータが足りないけど、今のところ約5億トークンを使ってみた)。
オープンモデルだけを見るなら、GLM 5.1がパレート分布で得られる最高のパフォーマンスだよ。 https://arena.ai/leaderboard/text?viewBy=plot&license=open-s...
みんなSOTAを追い求めてるけど、俺はMiniMax M2.5で月10ドルで複数の並行セッションでコーディングを終わらせてるから、制限にぶつかることもないよ。
真剣な仕事において、月に$10と$100を使う違いは、ほとんどのプロの開発者にとって考慮する価値もないよ。学生や非常に低所得の国の人たちには例外があるけど、六桁の給料が普通のキャリアの開発者がツールをケチるのはいつも不思議に思う。SOTAモデルですら、使い捨てのタスク以外では信頼できるとは思えない。月に$10から$100を節約するために、SOTA以下のモデルを監督するのは全然魅力的じゃない。最近は、小さな使い捨てタスクのために自己ホストのモデルを試してるけど、楽しいけど本業には時間を無駄にしたくないな。
この分野での開発方法は、無料のものを配って名前を広めてから、すべてを独占的にするって感じみたいだね。オープンウェイトをリリースし続けてほしいな。誰もオープンウェイトをリリースしなくなる日が来たら、人類にとって悲しい日だよ。もしそんなことが起きたら、普通の人は自分のコンピュータを持てなくなるだろうね。
チップメーカーにとって、みんながローカルモデルを手に入れることは重要だと思うよ。
彼らがこれをする理由は、利他主義以外に何かあるの?これは規制できるとは思えないな。
そうだね、これはまさにSaaSだよ。ちょっと違うのは、フロンティアラボの最低ランクのサブスクリプションが今では基本的に無料トライアルみたいになってることかな。
僕はもう少し楽観的だよ。今あるオープンウェイトモデルが、新しいモデルの漸進的な開発を支えるのに十分だと思ってる。アクセスしやすい計算リソースを使えばね。新しい基盤モデルは毎回ゼロからプリトレーニングする必要があるって考えは、直感的には納得しづらい。もう大変な作業は終わってると思う。あとはそれをうまく活用する方法をまだ知らないだけだね。
中国政府は、自国のモデルを世界中で使わせたいんだ。人々は、中国のAIラボがただの超クールな兄弟たちで、無料でシェアするのが好きだと思ってるけど、実際は中国をグローバルな供給と物流にさらに根付かせるための国が支援する事業なんだ。中国のVCは中国の銀行と少しの「プライベート」なお金。プライベートって言っても、技術的には結局国のものだからね。中国にはアメリカのような企業と政府はなくて、ただ政府と、西洋人を簡単に騙す「企業」の薄いベールがあるだけなんだ。
新しいフリーウェアモデルだね!
これは明らかに国家レベルでの戦略的な動きだよ。西洋企業が持つ独自モデルの堀を崩すために、競合するフリーモデルをどんどん発表していく。中国にとって都合がいい限り、独自モデルに戻ることはないだろうね。
それはちょっと一般化しすぎじゃない?アメリカのモデルは最初からクローズドでプロプライエタリだったし、一方でアメリカ以外のモデル(特に中国のもの)は最初からオープンだったよ。実際、逆の方向に進むことも多い。多くの中国のモデルは最初はプロプライエタリだったけど、後にオープンになったりしてる(大きなQwenモデルのようにね)。
なんで悲しいの?こういうのは全体的に役に立たないし、使いすぎる人たちも同様だよ。人々がテキストのオートコンプリートを革命的だと見なすのをやめたら、人類にとって素晴らしい日になるだろうね。
最近、リアルタイムパストレーサーを作ってるんだけど、マイクロファセット反射モデルやPDF、(複数の)重要度サンプリング、ReSTIRなどをちゃんと理解してないといけないんだ。だから、俺のはちょっと特定の使い方だね。数学やコードをダブルチェックするためにClaude、Gemini、GLM、Qwenを使ってるけど、ClaudeとGeminiは何度も間違ったり、誤解を招く情報をくれたりして、あんまり役に立たなかった。一方でQwenは、いつも正確で実用的な情報をくれたから、ほとんどClaudeとGeminiを使わなくなったよ。Claudeのコードはウェブアプリやバックエンド、シンプルなゲームの開発には向いてるかもしれないけど、俺には合わないな。これが俺の特定の使い方の話だよ。
それって、Qwenのどのサイズなの?一番大きいサイズは、正直言ってローカルで動かすのが難しいよね(これは現在の推論エンジンの能力の問題で、単にハードウェアの性能だけじゃないけど)。
Quenの「社交性」ってどんな感じ?僕がコーディングにLLMを使ってるから、今やこれが一番重要な点になってる。Claude 4.6は、問題を解決する時に考えを共有してくれる、いい感じの知識豊富な同僚みたいだったけど、Claude 4.7は質問に答えるんじゃなくて先に進んじゃう、ちょっと難しい反社会的なやつって感じで、一般的に人と話すのが苦手みたい。Qwenの社交スキルはどうなの?
「放射キャスケード」に興味があるかもしれないね。
OpenGLのコードを書いてる時に似たようなことを言ったことがあるけど(レイトレーシングとかね)、これらのモデルは理解がほとんどなくて、基本的なCRUDウェブアプリ以上のことには向いてない。僕の経験では、中規模のウェブアプリ(OdooみたいなERPを想像して)でも、詳細な仕様書を与えてもドメインを正しく理解したりモデリングするのにはほとんど役に立たない(インデックス.mdやサブセクション、さらに詳細なセクションや章が別のマークダウンファイルにあって、インデックス.mdにポインタがあるような全ディレクトリを使っても)。ここで言ってるのはオープンウェイトモデルじゃなくて、SOTAのClaude Opus 4.6やGemini 3.1 Proとかだよ。でも、その話はあまり人気がないね。クリプトやNFTの時代と似たようなことを感じる。あれは確かに未来だったし、少なくとも僕の会社はクリプトで給料を払ってくれるけど、NFTはボーナスの報酬に使われてる。
みんながモデルを比較して、Opus 4.7がSOTAでずっと良いとか言ってるのが面白いと思うけど、僕はGLM 5.1を使ってみた(これは彼らがOpusとCodexの両方でトレーニングしたからだと思う)で、Opusができなかったことをやらせてみたら、より良いコードを生成するのを見たよ。Qwen Maxシリーズは試してないけど、ローカルの122bモデルがドキュメントに基づいてOpusよりも賢くて正確なことをしてるのを見たから、ベンチマークは一つのことだけど、実際にモデルが何をするかが重要だよね。結局、ツールなんだから、ハンマーがレンチより優れてるって言うべきじゃないよ。どちらも木に釘を打つことはできるんだから。
多くの人が宗教から離れたけど(それには賛成できる)、その根底にある教条的な考え方は全然取り除けてないよね。最近のいろんなことと同じで、カルトみたいなもんだ。私は数ヶ月間Claudeを使ってきたけど、2月以降はその成果が急激に落ちてるのを感じてる。GPUプログラミングにも使おうとしたけど、全然ダメだった。SonnetやOpus 4.5、4.6を使ったけど、同じ気持ちを持ってる人には「ただ使い方が悪いだけ」とか「次のモデルが解決してくれるよ」とか言われるだけ。私にとってはただのツールだから、あまり気にしないけどね。
先週、GLMとQwenを1日試してみたんだけど、いくつかの問題は解決できたけど、表面的には簡単そうなタスクが何度か試しても解決できなかった。今朝、同じプロンプトでOpusは一発で解決したのにね。もちろんこれは一例だけど、公平に試したかったんだ。やることはMagentoの管理画面でソート可能なリストを作ることだったんだけど、逆にGLMはphpstormプラグインを一発で解決したよ。
[遅延]
中国のプロバイダーのパターンに気づいた? 1. モデルをクローズドソースにしている。 2. 価格をめっちゃ上げてる。かなりの額で、時には100%の値上げもあるよ。
うん、確かにその中国企業特有の特徴は他の国の企業にはないよね。
まあ、永遠に補助金を出し続けるわけにはいかないよね。それはある意味、予想通りだし。
アメリカの企業はその手のトリックが嫌いなの?!
そうだね、まるでギャンブル依存症の人たちをハマらせた後に、カジノがゲームを不正に操作し始めたみたいだね。誰がそんなこと予想できた??LLMを使いすぎたり、ちょっとでも興奮しちゃうと、もう終わりだし、完全にバカだよ。
ベンチマークや数字はもっと読みやすくするべきだと思う。あれは普通の消費者には役に立たないよ。
https://www.alibabacloud.com/help/en/model-studio/context-ca... OpusやCodex、Qwenのようなモデルもテストしてるんだけど、Qwenは多くのコーディングタスクで強いよ。ただ、長時間のセッションでの挙動が気になるんだ。Qwenは大きなコンテキストウィンドウを宣伝してるけど、実際には長いコンテキストの使用効果はそのキャッシングの挙動に大きく依存しているみたい。公式ドキュメントによると、Qwenは暗黙的および明示的なコンテキストキャッシングを提供しているけど、短いTTL(数分程度)やプレフィックスベースのマッチング、最小トークン閾値などの制約があるんだ。特にコーディングエージェントのようにコンテキストが時間とともに増えるワークフローでは、キャッシュの再利用が期待通りにスケールしないかもしれない。その結果、トークンあたりの価格は低く見えるけど、長時間のセッションではキャッシュヒット率が下がり、再計算が必要になるから、実際のコストは高く感じることがあるよ。ただ、セキュリティ関連のタスクなど特定の分野では、個人的にQwenがOpusよりも良いパフォーマンスを発揮したケースもあった。私の経験では、Qwenは個々のメソッドや関数のような短い単位ではOpusよりもずっと良いパフォーマンスを示すことが多い。ただ、全体的なコーディング体験を見たときには、Claudeのような自律的でエンドツーエンドのコーディングアシスタントよりも、関数レベルのジェネレーターとしての方がうまく機能すると思ったよ。