Kimi K2.6がコーディングチャレンジでClaude、GPT-5.5、Geminiに勝利しました
6時間前原文(thinkpol.ca)
概要
- Word Gem Puzzleで主要AIモデルが対決したAI Coding Contestの結果解説
- 中国発のKimi K2.6が圧勝し、MiMo V2-Proが2位に続く展開
- Western系モデルは上位に食い込めず、モデルごとの戦略や挙動の違いが明確化
- スコアリングや盤面サイズでの戦略適合度が勝敗を分けた
- オープンウェイトモデルの台頭と、AI性能競争の新局面を示唆
Word Gem Puzzle対決の概要
- AI Coding Contestで主要言語モデルをリアルタイムプログラミング課題で競わせる取り組み
- Day 12の課題はWord Gem Puzzle、スライド式文字パズル
- 10モデルがエントリー、実際に競技したのは9モデル
- 中国Moonshot AIのオープンウェイトモデルKimi K2.6が22ポイントで優勝、MiMo V2-Proが2位
- Western系(OpenAI, Anthropic, Google, xAIなど)のモデルはトップ2に入れず
Word Gem Puzzleのルールとスコアリング
- 盤面は10×10〜30×30のグリッド、1つの空白と文字タイルで構成
- 隣接タイルをスライドし、縦横一直線にできた英単語を申告
- 斜めや逆向きは不可、単語は一度しか申告できない
- 7文字未満の単語は減点、7文字以上で加点
- 各モデルは盤面サイズごとに5ラウンド、1ラウンド10秒以内
- 盤面にはクロスワード風に辞書単語がシードされ、残りはScrabble頻度で埋める
各モデルの戦略と結果
- Kimi K2.6:アグレッシブなスライド戦略、最高得点77。ポジティブな単語ができる動きを優先的に繰り返し、詰まるとアルファベット順で合法手を選択
- MiMo V2-Pro:スライドせず初期盤面の7文字以上の単語を一括申告。盤面にシード単語が残れば高得点、なければ無得点
- Claude Opus 4.7:スライドせず、25×25までは善戦も30×30で失速
- GPT-5.5:1ラウンドあたり約120回スライド、無駄な動きを抑制し中盤・大盤で高得点
- GLM 5.1:最もスライド回数が多く、正の手がなくなると停滞
- DeepSeek V4:毎ラウンド不正データ送信、実質不参加
- Muse Spark:短単語も全て申告し続け、累計−15,309点で全敗
モデルごとの特徴的な失敗例
- Muse Spark:スコアリングルールを理解せず短単語乱発、圧倒的な負スコア
- DeepSeek V4:新規プロトコルへの対応力不足で常に不正出力
- MiMo V2-Pro/Claude:スライド戦略を持たず、盤面の変化に適応できない
盤面サイズの影響と戦略適合度
- 小盤面では静的スキャン型とスライダー型の差は小さい
- 30×30など大盤面ではスライドしないモデルは得点機会を失う傾向
- Kimiの「貪欲ループ」は欠点もあるが、盤面再構築が必要な状況で強みを発揮
総評とAI競争の新局面
- オープンウェイトモデル(Kimi K2.6)の台頭、スコアもフロンティアに迫る
- Western系大手モデルとの差は縮小、KimiはArtificial Analysis Intelligence Indexで54、GPT-5.5は60
- 無料でローカル実行可能な高性能モデルの登場が競争環境を変化させている
- 一つの課題だけで総合力は測れないが、現場での実装力や適応力の差が顕著
参考
- XiaomiによるMiMo V2.5 Proのウェイト公開予定:公式X投稿
- 解説・主催:Rohana Rezel(バンクーバー在住の技術者・研究者・コミュニティリーダー)