ミストラル・ミディアム 3.5

6時間前原文(mistral.ai)

概要

Mistral Medium 3.5搭載の新しいクラウドエージェントの登場
Mistral VibeやLe Chatから非同期でコーディングタスクを実行可能
Workモードにより複雑なマルチステップ作業も自動化
モデルは公開ウェイト・MITライセンスで提供
API・クラウド・自社ホストで柔軟に利用可能

クラウドエージェントによるコーディングの新時代

コーディングエージェントが従来のローカルPCからクラウドへ移行
エージェントは独立して並列実行し、完了時に通知
Mistral Vibe CLIやLe Chatから直接タスク開始
チャットから離れずにコーディング依頼が可能なワークフロー

Mistral Medium 3.5モデルの特徴

命令追従・推論・コーディングを統合した128B密結合モデル
256kコンテキストウィンドウ対応で長時間作業や大規模文脈処理に最適
4枚のGPUで自社ホスト可能な省リソース設計
SWE-Bench Verified 77.6%、τ³-Telecom 91.4の高スコア達成
公開ウェイトはHugging Faceで修正版MITライセンス下に提供

Vibeリモートエージェントの進化

長時間タスクをクラウド上で実行し、ユーザーの手を煩わせない
並列実行により複数の作業を同時進行
CLIやLe Chatからエージェント起動、ローカルセッションのクラウド転送も可能
ファイル差分・ツール呼び出し・進捗状況を逐次確認
GitHub・Linear・Jira・Sentry・Slack・Teamsなど主要ツールと連携
完了時はGitHubのプルリクエスト作成や通知で効率化

Le Chatの新Workモード（プレビュー）

Mistral Medium 3.5搭載の新エージェントによる複雑なマルチステップ作業の自動化
メール・カレンダー・Slack等を横断したクロスツールワークフロー
リサーチ・要約・レポート作成等も自動実行
セッションは長時間持続し、試行錯誤や複数ターンに対応
コネクタ自動有効化で幅広い情報源から文脈取得
全アクションの可視化とユーザー承認による安全性確保

利用方法・料金・提供形態

Mistral VibeとLe Chatで即日利用可能
Pro・Team・EnterpriseプランでWorkモード利用
API価格：入力100万トークンあたり$1.5、出力100万トークンあたり$7.5
Hugging Faceでオープンウェイト配布、NVIDIA build.nvidia.comやNIMにも対応
研究・エンジニアリング・プロダクト分野で採用募集中

Hackerたちの意見

まあまあかな、特別ってわけじゃないけど、アメリカや中国以外のモデルのニュースはやっぱり嬉しいね。

└

これがヨーロッパの基準ってこと？

このMistralのリリースは、フロンティアラボと他のモデルとのギャップをすごく感じさせるね。プレエージェントの頃は、モデル間の違いがあまり明確じゃなかったけど、今はフロンティアモデル以外は考えたくない。能力の差がすごく大きいし、劣るものを選ぶと生産性に実際に影響が出るからね。Mistralや特にCohereみたいな小さいラボのファンなんだけど、最近はどちらの会社のリリースにもあまりワクワクしてないな。でも、Mistral Voxtralをリアルタイムで毎日使ってるけど、これはめっちゃいいよ。

└

> プレエージェントの頃は、モデル間の違いがあまり明確じゃなかった。いろんなモデルにはそれぞれの魅力があったけど、今はフロンティアモデル以外は考えたくない。能力の差がすごく大きいし、劣るものを選ぶと生産性に実際に影響が出る。これはもうリンゴとオレンジの違いだよ。Gemini、ChatGPT、Claudeの非エージェントタスクでの勝者は明確じゃないけど、Claude CodeはCodexよりもかなり良くて、CodexはGemini-cliよりも明らかに優れてる。この流れで言うと、Claude Codeが非フロンティアモデルよりもエージェントコーディングで遥かに優れているのは驚くことじゃないよ… 特殊なエージェントタスクでは他のフロンティアモデルよりもかなり良いからね。

└

> プレエージェントの頃は、モデル間の違いがあまり明確じゃなかった。いろんなモデルにはそれぞれの魅力があったけど、今はフロンティアモデル以外は考えたくない。これは非常にナイーブで誤った意見だと思う。ほとんどのタスク、特に複雑なコーディングタスクでは、フロンティアモデルとGPT4.1のようなモデルの違いはほとんどわからないよ。コンテキストウィンドウやツール呼び出し、推論ステップの特定の側面に本当に集中しないと違いに気づかない。さらに悪いことに、フロンティアモデルは結果を出すために brute force のアプローチを取っていて、そのせいで運用コストがかなり高くなってる。請求書に載る金額もそうだし、出力が得られるまでの待ち時間も長くなる。ローカルモデルの話はしないけど。

└

全然同意できない。1年前の生産性のギャップは、フロンティアモデルと非フロンティアモデルの間でずっと大きかったよ。2年前なんて言わずもがな。

いつも応援してるよ！モデルと国の多様性は素晴らしいね。これはしっかりした基盤になりそうだし、3.6/3.7でさらに良くなることを期待してる。コンピュータ使用のベンチマークから見ると、ビジョンパイプラインに改善の余地があるかもしれないけど、あくまで推測だね。いくつかのベンチマークの結果が、これは本当に独立して訓練されたモデルなんじゃないかって感じさせる。フロンティアのログをそのまま使っただけじゃないってことが大事だと思う。特定のモデル内に異なる重みのアーキテクチャがあるのは、グローバルなシステムアーキテクチャの観点から見ると自体が利点になる気がする。

これが公式のMistral APIで利用可能かどうかわからない。彼らのモデルリストAPIはこれを返してる：{ "id": "mistral-medium-2508", "object": "model", "created": 1777479384, "owned_by": "mistralai", "capabilities": { "completion_chat": true, "function_calling": true, "reasoning": false, "completion_fim": false, "fine_tuning": true, "vision": true, "ocr": false, "classification": false, "moderation": false, "audio": false, "audio_transcription": false, "audio_transcription_realtime": false, "audio_speech": false }, "name": "mistral-medium-2508", "description": "Update on Mistral Medium 3 with improved capabilities.", "max_context_length": 131072, "aliases": [ "mistral-medium-latest", "mistral-medium", "mistral-vibe-cli-with-tools" ], "deprecation": null, "deprecation_replacement_model": null, "default_model_temperature": 0.3, "type": "base" }、だから「mistral-medium-latest」ってエイリアスがあるけど、公式IDは「mistral-medium-2508」で、これは2025年8月にリリースされたモデルを示唆してる。でも…その1777479384のタイムスタンプは、2026年4月29日水曜日の午後4時16分24秒UTCにデコードされる。これが新しいMistral Mediumなのかな？

└

https://github.com/mistralai/mistral-vibe のソースコードをちょっといじってみたら、これが出てきたよ： curl https://api.mistral.ai/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer $(llm keys get mistral)" \ -d '{ "model": "mistral-medium-3.5", "messages": [ {"role": "user", "content": "Generate an SVG of a pelican riding a bicycle"} ] }' これがちゃんと動いたけど、ちょっとがっかり。モデルリストに出てこないのが変だね： curl https://api.mistral.ai/v1/models \ -H "Content-Type: application/json" \ -H "Authorization: Bearer $(llm keys get mistral)" | jq

128Bが今やミディアムと見なされるのが面白いよね。昔は355Mパラメータがミディアムって言われてたのを覚えてる。

└

GPT-2の1.5Bはリリースするには危険すぎると見なされてた。彼らは多分正しかったね。

コメント欄の人たちが何を言ってるのかよくわからない。確かに他のモデルには勝てないけど、サイズにしては頑張ってると思う。GLM 5.1は優れたモデルだけど、Q4だと約400GB必要だし。Kimi K2.5もすごく良いし、Q4量子化だとほぼ600GB。で、このモデルは？Q4で70GBのVRAMで動かせるよ。これって消費者レベルに近づいてるね（128GBのRAMを搭載したMac Studioが約3500ドルで買えるし）。Claude派の人たちにはわからないけど、Opusだけを使ってるのかな？私がProプランの時、Sonnetはすでにかなり優秀だったよ。これがローカルで動いて、HERMES.mdがリポジトリにあっても余計な料金を取られたり、気まぐれでアカウントをロックされたりしないのはいいね。Mistralはフロンティアでは競争力がなかったけど、もしかしたらそれが彼らに求められていることじゃないのかも。コストやサイズの20%でフロンティアの80%を得られるParetoモデルって、すごく良さそうだと思う。

└

これは128Bの密なモデルだよ。Macから3t/s以上は出すのは難しいだろうね。フィットするかどうかは関係ないし。

└

HERMES.mdのことは知らなかった…（？？）他の人のためにここに情報を見つけたよ。https://github.com/anthropics/claude-code/issues/53262

└

qwen 3.6 27bと同じくらいのSWEベンチスコアがあるね[1]。誰もフロンティアと比較してないよ。[1]: ブログには他の共通ベンチマークはないみたい。

└

> このモデル？Q4で70GBのVRAMで動かせるよ。これは消費者レベルに近づいてるね（約3500ドルで128GBのRAMを搭載したMac Studioが手に入る）。ローカルのLLMに興味がある人に知っておいてほしいのは、モデルを動かせることと、モデルを速く動かせることは全然違うってこと。128GBのMacでもこれらのモデルを動かせるけど、まずQ4が十分な品質を保っているか（モデルによって量子化への感度が違う）と、どれくらい速く動くかを確認する必要がある。非同期作業やバックグラウンドタスクを動かすには、プロンプト処理やトークン生成の速度はあまり重要じゃないけど、多くのMac Studioの購入者は、適切なハードウェアでクラウドにホストされたモデルと比べて反応が鈍いことを痛感してるからね。現場での処理に厳しい要件がない人にとって、このモデルのベストな使い方は、OpenRouterのホストプロバイダーを通じてトークンで支払うことだと思う。 > これ、ローカルで動かすと最新のSonnetを超えてるよ。今年のほとんどのオープンウェイトモデルのリリースは、Sonnetに匹敵するかそれを超えるって主張してるけど、たくさん試してみたけど、実際にそれを見たことはまだないな。ベンチマークでは明らかにリードしてるのにね。

└

ポイントは、オープンウェイトで、競合他社に比べてかなり小さいってことだね。世界クラスのパフォーマンスを出すために4GPU - 最高だ！

└

> このモデル？Q4で70GBのVRAMで動かせるよ。 > これ、ローカルで動かすと最新のSonnetを超えてるよ。Q4でSonetに勝てるかはわからないな。 > これは消費者レベルに近づいてるね（約3500ドルで128GBのRAMを搭載したMac Studioが手に入る）。3500ドルあれば、コーディングプランを使って7～8年分のGLMが手に入るし、もっと速いモデルと質の高いコードが得られるよ。

└

競争はDeepSeek v4 Flashで、同じサイズやデプロイメントターゲットを狙ってるね。

└

> クロード派の人たちへ。オーパスだけを使ってるのか分からないけど、僕がプロプランの時、ソネットはすでにかなり優秀だったよ。2月前は、マックスプランでオーパスをハイ設定で問題なく使えてた。今はソネットをハイ設定で使ってるけど、これもかなり使えるね。クレイジーだけど、好きだな、クラウド派。 ;)

└

うん、十分なVRAMがあればローカルで動かせるよ。でも、報告によると約3トークン/秒らしい。こののはStrix Haloボックスで、必要なVRAMはあるけど、GPUカードほどのメモリ帯域幅はないんだ。Macでも似たような感じになるけど、それがジレンマなんだよね… 統一メモリのマシンはVRAMはあるけど、密なモデルを動かすには帯域幅があまり良くない。こんな密なモデルは、約70GBのメモリを持つ複数のGPUカードを持ってるごく少数の人だけが有用に動かせると思う。

└

Kimi K2.6ってネイティブでINT4じゃなかったっけ？

今まで試したホスティングされたLLMの中で、Mistralだけがかなり厳しいCSPヘッダーを持ってるみたい。JavaScriptライブラリを使ってウェブサイトを作るように頼むと、プレビューが表示されないんだ。le chatはキャンバスモードを提供してるのにね。新しいリリースが出た時、ちょっとウェブで試したいだけなのに、エージェントハーネスを使ってお金を払わなきゃいけないのが嫌だ。なんでこんな感じなんだろう；_; 編集：自転車の上のキリスト、SVGを描くのが下手すぎるよ。https://chat.mistral.ai/chat/23214adb-5530-4af9-bb47-90f5219...

└

LLMでSVGを描きたい、必要だ、期待したことは一度もないよ。どのモデルもそれが苦手で、ただ中にはちょっと楽しいものもあるけどね。

└

> 編集: 自転車の上でクリストがSVGを描くのが下手すぎる。自転車の上で描けるなら、少しはマシになるかも。まったく。SVGがベンチマークとしては最適じゃないかもしれないけど、僕がMistral Vibeで（以前の）Mistralモデルを動かそうとした時の経験に合ってる。MCPサーバーの設定を手伝ってくれって頼んだら、自信満々にMCPはマインクラフトプロトコルだって説明して、マインクラフトのバイナリを探し始めたんだ。

これはとても興味深い戦略で、うまくいくかもしれないね。このモデルは企業のセルフホスティングにはすごくいい選択肢だと思う。多くの会社は計算能力よりもVRAMが足りないって言えるんじゃないかな。H100クラスタには4～5のインスタンスを動かせるけど、Kimi K2やGLM5だと1～2しか動かせないからね。

└

でも、これは128Bの密なモデルだよ。長いコンテキストのK/Vキャッシュはかなり大きくなるだろうね。

Vibeが前のバージョンでcodestral-v2を使ってやったことを考えると、これは素晴らしいニュースだね。頑張って！世界の二つの大国に依存したくないから。

ほとんどのOSSリリースがMoEになっていて、現代のGPUがMoEに最適化されてる中で、Mistralが密なモデルを選んだ理由について、知識のある人が説明したり推測したりできるかな？

└

でも、現代のGPUはMoE向けに最適化されてないよね？このMistralのような密なモデルの利点は、もっと大きなMoEモデルと同じくらい賢いから、少ないGPUで収まるってことなんだ。ただし、トレードオフとして、毎トークンごとに100%の重みを読み込まなきゃいけないから、すごく遅くなるんだ。MoEモデルは通常、約10分の1だけを読むけど、スパースレベルはバラバラだし。

ハクソク