ハクソク

世界を動かす技術を、日本語で。

Kimi K2.6がコーディングチャレンジでClaude、GPT-5.5、Geminiに勝利しました

概要

  • Word Gem Puzzleで主要AIモデルが対決したAI Coding Contestの結果解説
  • 中国発のKimi K2.6が圧勝し、MiMo V2-Proが2位に続く展開
  • Western系モデルは上位に食い込めず、モデルごとの戦略や挙動の違いが明確化
  • スコアリングや盤面サイズでの戦略適合度が勝敗を分けた
  • オープンウェイトモデルの台頭と、AI性能競争の新局面を示唆

Word Gem Puzzle対決の概要

  • AI Coding Contestで主要言語モデルをリアルタイムプログラミング課題で競わせる取り組み
  • Day 12の課題はWord Gem Puzzle、スライド式文字パズル
  • 10モデルがエントリー、実際に競技したのは9モデル
  • 中国Moonshot AIのオープンウェイトモデルKimi K2.6が22ポイントで優勝、MiMo V2-Proが2位
  • Western系(OpenAI, Anthropic, Google, xAIなど)のモデルはトップ2に入れず

Word Gem Puzzleのルールとスコアリング

  • 盤面は10×10〜30×30のグリッド、1つの空白と文字タイルで構成
  • 隣接タイルをスライドし、縦横一直線にできた英単語を申告
  • 斜めや逆向きは不可、単語は一度しか申告できない
  • 7文字未満の単語は減点、7文字以上で加点
  • 各モデルは盤面サイズごとに5ラウンド、1ラウンド10秒以内
  • 盤面にはクロスワード風に辞書単語がシードされ、残りはScrabble頻度で埋める

各モデルの戦略と結果

  • Kimi K2.6:アグレッシブなスライド戦略、最高得点77。ポジティブな単語ができる動きを優先的に繰り返し、詰まるとアルファベット順で合法手を選択
  • MiMo V2-Pro:スライドせず初期盤面の7文字以上の単語を一括申告。盤面にシード単語が残れば高得点、なければ無得点
  • Claude Opus 4.7:スライドせず、25×25までは善戦も30×30で失速
  • GPT-5.5:1ラウンドあたり約120回スライド、無駄な動きを抑制し中盤・大盤で高得点
  • GLM 5.1:最もスライド回数が多く、正の手がなくなると停滞
  • DeepSeek V4:毎ラウンド不正データ送信、実質不参加
  • Muse Spark:短単語も全て申告し続け、累計−15,309点で全敗

モデルごとの特徴的な失敗例

  • Muse Spark:スコアリングルールを理解せず短単語乱発、圧倒的な負スコア
  • DeepSeek V4:新規プロトコルへの対応力不足で常に不正出力
  • MiMo V2-Pro/Claude:スライド戦略を持たず、盤面の変化に適応できない

盤面サイズの影響と戦略適合度

  • 小盤面では静的スキャン型とスライダー型の差は小さい
  • 30×30など大盤面ではスライドしないモデルは得点機会を失う傾向
  • Kimiの「貪欲ループ」は欠点もあるが、盤面再構築が必要な状況で強みを発揮

総評とAI競争の新局面

  • オープンウェイトモデル(Kimi K2.6)の台頭、スコアもフロンティアに迫る
  • Western系大手モデルとの差は縮小、KimiはArtificial Analysis Intelligence Indexで54、GPT-5.5は60
  • 無料でローカル実行可能な高性能モデルの登場が競争環境を変化させている
  • 一つの課題だけで総合力は測れないが、現場での実装力や適応力の差が顕著

参考

  • XiaomiによるMiMo V2.5 Proのウェイト公開予定:公式X投稿
  • 解説・主催:Rohana Rezel(バンクーバー在住の技術者・研究者・コミュニティリーダー)

Hackerたちの意見

一つのチャレンジで、解決策のパフォーマンスがどうだったかで測った結果だね。Kimi K2.6は確かにフロンティアサイズのモデルだから、閉じたフロンティアモデルと並んでいるのはあまり驚きじゃない。でも、オープンであるのはいいことだよね。私みたいに一つのコンシューマGPUしか持ってない人にはあまり関係ないけど。
でも、これが未来なんだよね。H200sで動くオープンウェイトモデルは、製品や実際のインフラを構築するためのチャンスがずっと広がる。自宅の小さなRTX用にこれを常に抽出できるけど、コンシューマハードウェア向けに形作られたモデルは、広く採用されることも、フロンティアラボと競争することもないだろう。これは競争できるものなんだ。そして、推論を実行するための新しい世代のオープンクラウドインフラが必要になるし、インスパイアもされる。「ボタンを押してデプロイ」や「ボタンを押して微調整」する製品から始まって、APIにロックされていないオープンウェイトだけが達成できる、もっと高度な製品へと進んでいく。今はオープンウェイトのNano Banana ProやGPT Image 2、Seedance 2.0相当が必要だね。データセンター向けのオープンウェイトに焦点を当てるべきだと思う。
これは絶対に重要だよ。最初は気づかないかもしれないけど、私のお気に入りのフロンティアモデルがかなり弱体化して、昔はできていたことができなくなっているのを見つけている。私たちは、ますます依存するオープンウェイトモデルを持つ必要があるんだ。
>オープンであるのはいいことだよね、私みたいに一つのコンシューマGPUしか持ってない人にはあまり関係ないけど。もちろん、これは重要だよ。だって、AnthropicやOpenAIのプランよりもコーディングプランがずっと安くなるから。個人用にはGLM 5.1、Kimi K2.6、MiniMax M2.7、Xiaomi MiMo V2.5 Proのコーディングプランを持っていて、コスパがすごくいいんだ。
> オープンでいるのはいいことだよね。特に、僕みたいにシングルの消費者用GPUしか持ってない人にはあまり関係ないけど。オープンソースの価値は、自分でローカルで動かすことじゃなくて、誰でも動かせるってことなんだよね。もし大きなオープンソースモデルを動かすためのハードウェアを買えなくても、誰かがそれを買って、クローズドソースモデルの半額で提供しても利益が出るはず。今それが実現してないのは、現在の主要なトークン提供者が推論コストを補助してるからなんだ。彼らが劣化を始めた瞬間、代替品の市場が成り立つようになるよ。オープンソースモデルがない限り、代替品は決して成立しない。たとえ彼らが開発者のコストの80%だけを請求したいと思っても、遅れを取ってないオープンソースモデルの存在が彼らにプレッシャーをかけるんだ。彼らには防御策がないよ。
ランキングには驚いたけど、テスト内容を読んで納得した。コーディングにはあまり関係ないね。今の全テストのランキングはもっと理にかなっている(まあ、Geminiの成績を除いてだけど)。 https://aicc.rayonnant.ai
でも、ランキングの内訳を見ると、Kimi K2.6は最近の5つのチャレンジにしか参加してなくて(それ以前はClaudeが圧倒的だった)、その5つだけをカウントすると1位になるんだよね。
金メダルのランキングは、全モデルがすべてのテストに参加している場合にのみ意味があるよね。DNP = 参加しなかった。これに関しては、君はClaudeよりも多くて質の良いメダルを持ってるね。
うん、君が提供したリンクはKimiの優位性を基本的に確認してるね。
客観的なスコアのテストにシフトしているのが嬉しい。私たちは https://gertlabs.com/rankings でこれを大規模にやっていて、著者がユニークなサンプルを実行しているようだけど、Kimi K2.6がどれだけ良いパフォーマンスを出したかを見るのは驚きじゃない。私たちのテストによると、特にコーディングでは、KimiはMiMo V2.5 Proのトップオープンウェイトモデルと統計的に不確実な範囲内で、DeepSeek V4 Proよりもツールを使った時のパフォーマンスがずっと良い。GPT 5.5は快適にリードしているけど、KimiはOpus 4.6と同等かそれ以上だよ。Kimi 2.6の問題は、私たちがテストした中で遅いモデルの一つだってこと。
私の経験では、ベンチマークはあまり意味がないと思う。パフォーマンスは言語やタスク、使うプロンプトや期待される結果によっても変わるからね。自分の内部テストでは、GPT 5.5とOpus 4.7のどちらが優れているか判断するのが本当に難しかった。スタイルが違うから、結局は好みの問題だよね。勝者を決めたと思ったモデルについて、考え直して気が変わったこともあったし。最終的には、ちょっとOpus 4.7の方が好きかな。
あなたのテストと結果はオープンソースなの?
Fireworksで使うのについてどう思う?あそこではすごく速いよね。
エージェント的なワークフローでは、クイーンフラッシュとディープシークフラッシュモデルがかなり良さそうだね。昨日の別のコメントでも、フラッシュモデルはツールコールが得意だって言ってたし。gpt55で計画して、フラッシュモデルで実装するのがコスパ良さそう。
KimiがClaudeよりもコーディングが得意というよりは、Kimiがこの特定のゲームのための正しい戦略を見つけたって感じだね。それでも興味深いけど。オープンウェイトモデルがそれだけの差を生むっていうのが、たぶん本当のストーリーだと思う。
これらの投稿は、次の1年間ずっと続くと思う。モデルを比較する客観的な方法がないから(トークン生成速度や平均推論トークン数、パラメータ数、アクティブエキスパートなどの低レベルの数字は過去のもの)。彼らは多くの点でかなり異なり、異なる人々によってさまざまな目的で使われていて、決定論的ではない。だから、「このモデルがあのモデルに勝った!」っていうベンチマークやテスト、宣言が常に見られることになる。みんなが最高のものを見つけようと競争しているけど、最高のものなんてないんだ。自分の基準に基づいて、自分にとってのベストなものがあるだけ。おそらく「Windows vs MacOS vs Linux」みたいな世界になるだろうね。特定のことを特定の方法でやるキャンプにみんなが固執するようになる。
僕の考えでは、結局は人を雇うのと似たような状況になると思う。履歴書(ベンチマーク)を見ても、実際に6ヶ月一緒に働くまで本当にわからないよね。業界全体として、あるソフトウェアエンジニアが他のエンジニアより客観的に優れているかどうかを判断できないから、どうしてモデルの客観的なランキングができると思うんだろう?
モデルを比較する客観的な方法はあるよ。それには繰り返しサンプリングと統計分析が必要で、結果が将来も持続する可能性があるのか、それともただの偶然なのかを判断するんだ。各モデルを期待されるタスクで最大限に調整すれば、異なるベンチマークから得られるランキングもかなり一致するよ。著者はそれをやってない。彼らは13の問題で各モデルを一度ずつ実行して、12番目の問題の結果だけを強調したんだ。それはp-hackingにもならないよ、だって最初からp値について考えてないから。LLMの品質は実行ごとにかなり変動するから、各モデルを一度だけ実行することは、コインを2回投げて1回が表、もう1回が裏になるのと同じくらい、どちらが優れているかを知る手がかりにはならないよ。
モデルを比較する方法がニュースになってるんじゃなくて、Kimi K2.6(あとDeepseek v4 Proも)って、Opusとほぼ同等ってことが大きいんだよね。オープンソースだし、アメリカのモデルよりもトークンあたりのコストがめっちゃ安い。今、$20のOllamaクラウドプランで使ってるけど、サイドプロジェクトでも限界に達することなく使えるよ。Claude Proの$20プランだと、1、2回のプロンプトでギリギリ持つかどうかって感じ。Ollamaクラウドを選んだのはCLIが使いやすいからだけど、他にもたくさんのプロバイダーがあるから、ひどい条件や使用ルールに縛られることもないんだ。これってアメリカ経済にとってはかなり悪いことだと思う。
それ、私も思った! > 「Word Gem Puzzleはスライディングタイルの文字パズルです。ボードは長方形のグリッド(10×10、15×15、20×20、25×25、または30×30)で、文字タイルと1つの空白スペースで構成されています。」先週、上司が顧客のためにそれを実装してほしいって言ってたんだ。/s もっと実際のタスクをやった方がいいんじゃない?データベースを追加して、RESTも入れて、ランダムなJSフレームワークを使って、長いタスクを自動で解決させるとかさ。
Kimiは本当に優秀だよ。コンパイラやVMプロジェクトでSonnetや他のツール(DeepSeek、ChatGPT、MiniMax、Qwen)を使ってるけど、Claude Proプランは真面目なコーディングにはほとんど使えない。だから、ブラウザのチャットモードで使って、プロジェクト全体を無駄に読み込まないようにしてる。KimiはOpenCode Goプランでpiを使ってるけど、C+PythonプロジェクトではSonnetを常に上回ってた。頼んだこと以外のことをする心配は全くなかった。GLMは一度か二度失敗したけど、Kimiはそんなことなかった。
現在のペースだと、オープンソースモデルは数年以内にクラウドモデルを超えると、数日前に読んだ研究で予測されてる。数年前のchatGPTやClaudeを振り返ると、非常に小さなQwenモデルでも、当時のクラウドベースモデルと同等のコーディングができてた。スケーリング法則も考慮すると、9bから18bは約40%の増加だけど、18bから35bは20%。クラウドベースモデルの価格には少なくとも変化があると思う。Adobeは以前は月600ドルだったけど、スケールが大きくなると20ドルになったからね。
これが本当だとしても、ハードウェアの面が心配だな。良いモデルがあっても、クラウドモデルの提供者がハードウェア調達で優れていたらどうする?
データセンターは何のためにあったの???
> Adobeは以前は月600ドルだったけど、配布がスケールしたら20ドルになった。これはどの製品のことを指してるの?Adobeがそんなに高い製品を出してるって聞いたことないんだけど?
読んだ研究のリンクがあれば、ぜひ教えて!
残念ながら、KimiはGPTやOpusには全然及ばないよ。そうであればいいんだけどね。3Dモデルを生成するコードを作る必要がある評価を行ってるけど、空間的理解が欠けていて、成功する前に多くのコードエラーを出すのが明らかだ。特定のケースでは少し良いかもしれないけど、この記事はその一例だと思う。
anecdotalだけど、ここ数ヶ月ずっとClaude Codeを使ってきたけど、Pi + Kimi K2.6が思ったよりもすごくてびっくりした。しかも、OpenRouter経由でかなり速いし、コストもかなり安い。
今週はOpenCodeとPiのいろんなモデルを試してみたんだけど、今は面白い状況だね。オープンモデルは確実に「十分良い」レベルに達していて、しかもめっちゃ安い。特に未知の領域、カスタムエンタープライズフレームワークとかになると、モデルの知識が薄れて一般的な知能が働くから、あんまり良くないけど。でも、時間が経てばみんなそのためのカスタムスキルやエージェントファイルを作るようになるだろうし、オープンモデルももっと良くなるはず。2年後にはこのコーディングアプリが完全に商品化されてる姿が見えるな。