ハクソク

世界を動かす技術を、日本語で。

Kimi K2.6: オープンソースコーディングの進展

概要

  • Kimi K2.6は最新のオープンソースAIモデルで、長期的なコーディングやエージェントスワーム機能を強化
  • 多言語・多用途でのプログラミングやエージェント運用に高い信頼性を発揮
  • 大規模並列処理や自律的なタスク分解が可能で、実用的なエージェント群構築を支援
  • 実績やベンチマークでKimi K2.5から大幅な性能向上を証明
  • APIやKimi.com、Kimi Appから利用可能

Kimi K2.6の特徴と進化

  • Kimi K2.6は最先端のコーディング能力、長期的な実行、エージェントスワーム機能を備えたオープンソースAIモデル
  • Kimi.com、Kimi App、API、Kimi Codeなど複数チャネルで提供
  • 多言語(Rust、Go、Pythonなど)や多様なタスク(フロントエンド、DevOps、パフォーマンス最適化)に対応
  • Kimi Code Benchなど社内ベンチマークでKimi K2.5より大幅な性能向上を確認
  • 長時間・高頻度のツール呼び出しと継続的なコード改善が可能

実用事例とパフォーマンス

  • Qwen3.5-0.8Bモデルのローカル導入・推論最適化をZig言語で自律的に実施
  • exchange-core(8年物OSS金融エンジン)を13時間で最適化、スループットを185%向上
  • 企業評価でも長期コーディングタスクで高い信頼性を発揮
  • ツール呼び出し成功率96.60%、コード生成精度12%向上、長文コンテキスト安定性18%向上
  • Next.jsベンチマークで50%以上の改善、コストパフォーマンスも高評価

コーディング駆動型デザイン

  • シンプルなプロンプトから高品質なフロントエンドUIを自動生成
    • ヒーローセクションやインタラクティブ要素、アニメーションに対応
    • 画像・動画生成ツールとの連携によるビジュアル資産生成
  • 静的フロントエンドだけでなく、認証やDB操作を含む簡易フルスタック開発も可能
  • Kimi Design BenchでGoogle AI Studioと比較し良好な結果

エージェントスワームの進化

  • タスクを複数のサブエージェントに分割し同時実行、最大300サブエージェント・4,000ステップまで拡張
  • ドキュメント、ウェブサイト、スライド、スプレッドシートなど多様な成果物を1回の自律実行で生成
  • 高品質なPDF、スライド、Wordなどを「Skill」として再利用可能
  • 事例:グローバル資産戦略のPPT化、天体物理論文の再現、CVから100通のカスタム履歴書生成、店舗向けLP量産

プロアクティブエージェントの実力

  • OpenClawやHermesなどの長時間・自律型エージェント運用で高い実績
  • 5日間自律運用による監視・障害対応・システム運用の完全自動化
  • API解釈精度、長時間安定性、安全性が向上
  • Claw Benchで全メトリクスにおいてK2.5を大幅に上回る

エージェントの持ち込みと協調

  • Claw Groupsとして、異種エージェントと人間が協調するオープンエコシステムを実現
    • ローカルPC、モバイル、クラウドなど多様な環境からエージェント参加
    • 各エージェントは独自ツール・スキル・メモリを保持
  • Kimi K2.6がタスクとエージェントを動的に最適マッチング
    • 失敗時は再割当や他エージェントへの移譲も自動実行

総評

  • Kimi K2.6はオープンソースAIモデルの新基準を確立
  • 長期的・複雑なコーディングやエージェント運用において他モデルを凌駕
  • 開発者・研究者・業務自動化に最適な選択肢

Hackerたちの意見

うわー、ベンチマークが雰囲気に合ってるなら、これって中国のAIがアメリカの最先端モデルと肩を並べるような、まるでDeepseekの瞬間みたいになるかもね。
前の世代なら?うん。10Tの神話レベルのモデルとは、全然近くもないけど。
仕事を通じてサブスクリプションを持ってるんだけど、試してみた感じ、opusと同じくらい、いやそれ以上に良さそうだよ。
Kimiがもっと注目されないのが不思議で仕方ない。クリエイティビティやクオリティの面で、いつも目立ってるし…しばらくの間、私のお気に入りモデルなんだ(でも、私は専門家じゃないけどね)。
オープンルーターでこんなに安いのに、品質が良いのもすごい。2.6もその伝統を引き継いでくれるといいな。
もしかしたら、自分のコードベースにカオスモンキーを解き放つような感じなのかも?ローカルで試したけど(K2.5 72B)、何も役に立つものが得られなかった。
SVG時計を描ける数少ないモデルの一つだね。https://clocks.brianmoore.com/
Kagiのアシスタント機能にはそれがオプションとしてあるよ。自然にたくさんの検索と結果の要約が行われるんだ。そこでの出力は気に入ってるし、一般的にリストやMarkdown重視の「LLMスタイル」じゃないプローズを求められた時も良かったよ。自信を持って比較するのは難しいけど、出力をうまく流れるように整えるのが大胆だと思った。元のドキュメントに手を加える必要がある時もあったけどね。時には、関連するアイデアをつなげるために手術が必要だったり、ただ関連情報をダンプするんじゃなくて、本当にリクエストに応じた返答をするために必要だったりするんだ。
いい感じだけど、Claudeレベルには達してないかな。APIは常にキャパシティの問題があるし。ただ、価格と品質はマジでヤバい。数週間前に40ドルチャージしたけど、まだ半分も使ってないよ。
中国(まさかの国)がオープンソースで世界で最も重要な技術を先駆けてるってのは、ちょっと面白いよね。一方で、アメリカは真逆のことをやってるし。
もしかして、オープンソースって共産主義に等しいのかな?
偉大な技術革新は、技術をオープンにすることで生まれてきたんだよ。iPhoneを見てみなよ。GPS、インターネット、AI音声アシスタント、タッチスクリーン、マイクロプロセッサ、リチウムイオンバッテリーなど、全部政府の研究から来てるんだ(ベル研究所の政府による独占と研究資金も含めてね)。特許で閉じ込められるんじゃなくて、無料でオープンにされたからこそなんだ。民間企業は、自分たちの競争相手に技術革新をオープンにすることは絶対にないよ。そんなの意味がないからね。全体の分野を進歩させたいなら、オープンにしないとダメだよ。
オープンAIの「オープン」には追加のユーモアがあるよね。
今、無秩序な資本主義が人間性とぶつかるところに来てるね。これからどうなるのか気になる。
これは対立してるわけじゃないよ。俺の限られた個人的経験では、OSSライセンスの下でコードを書いたのは、過去の共産主義的信念や現在の左派的な富の再分配の視点から来てる。これは「共産主義の中国はお金に興味がない」という単純な方程式を提供するためじゃなくて、そういうことに文化的なつながりがないとは信じがたい。中国の人々は勝ちたいと思ってるけど、アメリカとは違う集団の意味についての視点を持ってる。今、中国は経済的よりも技術的にAIで勝つことに興味があるのは明らかだと思う。長期的には、LLMが現在の形で商品化されることを多くの人よりも早く認識してるから。ある研究所が画期的な成果を上げれば決定的なアドバンテージを得る可能性はあるけど、今のところは違う現実を見てる。AIはアーキテクチャに縛られているわけではなく(LeCunや他の人たちが信じさせようとしてるけど、彼らはこれまでのところLLMを誤解してる)、GPUに依存してるし、データの依存性はみんなに共通するもので、RLを通じて多くの分野で克服可能だ。だから、これが本当なら、どの研究所もそんなに良くなるのは簡単じゃない。実際、今のところ、十分なエンジニアやGPU、お金を持ってる人たちがフロンティアモデルを出してるし、中国ではGPUが少なくてもSOTAレベルでやれる研究所もある。イタリア人の俺にとって、これは保護的な層でもある。トランプ以降、アメリカは決定的な技術に依存するには非常に不安定なパートナーに見えるし、ヨーロッパがこの技術にお金をかけるのが遅れている中、中国は俺たちにとって大きくて輝かしいプランBだ。
これらすべての背後に中国側の戦略があるのかな?CCPが中国の多くの事務に直接関与しているのは知ってるけど、西側と競争したり妨害したりするための実際の協調努力があるのかな?
OpenRouterを使ってアクセスしたこのモデルは、SVGペリカンをHTMLでラップしてアニメーション速度のコントロールをつけたみたいだね。https://gisthost.github.io/?ecaad98efe0f747e27bc0e0ebc669e94... トランスクリプトとHTMLはこちら: https://gist.github.com/simonw/ecaad98efe0f747e27bc0e0ebc669...
ここにはやりすぎな子がいるね。キミって名前は、先生のお気に入りって感じがする。
現時点では、これらのペリカンを描くことがトレーニングデータセットに入っているはずだね。
本当に疑問なんだけど、HNの新しいモデルスレッドでこれをほぼ毎回投稿する目的って何なの?俺は年寄りで不機嫌かもしれないけど、もう飽きた感があるし、低努力なRedditのコメントに近いと思うんだよね。
これに関するコーディングプランはあるの?(トークン制限なし、APIコール制限のみ)。最近、z.aiのGLMの請求ができなくて、サブスクリプションが切れちゃったんだ…最近数ヶ月でGLMの価格が急騰したからね…
ここでKimiを実際の仕事で使った人いる?一度試してみたけど、ベンチマークではすごく見えるのに、実際の体験はまあまあって感じだった。逆にQwen 3.6はかなり良かった。Opusにはまだ及ばないけど、Sonnetと同じくらいのレベルにはあるよ。
> エージェントスウォーム、エレベーテッド:100の仕事にマッチして100のカスタマイズされた履歴書を生成するモデルはかなり能力があるみたいだけど、この使い方はちょっとヤバいね。面接がすでに地獄なのに。
自分のテストでは、Kimi K2.5よりほんの少しだけ良い感じ。Kimi K2.6は、パズルやドメイン特有の正確さが求められるタスクで苦戦してるみたいで、指示を見逃したり間違った答えを出したりすることが多い。おそらくコーディングモデルとしては優れてるけど、全体的にはSOTAよりちょっと劣る感じだね。[0]: https://aibenchy.com/compare/moonshotai-kimi-k2-6-medium/moo...
こういう長期的なプロジェクトがオープンソースになったらいいなって思う。トランスクリプトやコードを自動でgitにコミットする仕組みを整えて、コミットメッセージも自動化して、全部リリースしちゃえばいいのに。めっちゃクールだよね!これが実現したらすごいことになると思う。 >「Kimi K2.6は、Mac上でQwen3.5-0.8Bモデルを成功裏にダウンロードしてデプロイしました。ニッチなプログラミング言語Zigを使ってモデル推論を実装・最適化し、優れたアウトオブディストリビューションの一般化を示しました。4,000回以上のツール呼び出し、12時間以上の連続実行、14回のイテレーションを経て、Kimi K2.6はスループットを約15から約193トークン/秒に劇的に改善し、最終的にはLM Studioより約20%速い速度を達成しました。」