DeepSeek V4 - ほぼ最前線、価格はごくわずか

21時間前原文(simonwillison.net)

概要

2026年4月、DeepSeekがV4シリーズのAIモデルを発表
DeepSeek-V4-Proはオープンウェイト最大規模のモデル
FlashとProの2種類、いずれも高効率・低コスト
価格は競合他社を大きく下回る水準
長文コンテキストや効率性に特化した設計

DeepSeek V4シリーズ新モデル発表

DeepSeekは2026年4月にV4シリーズをリリース
今回発表されたのはDeepSeek-V4-ProとDeepSeek-V4-Flashの2モデル
両モデルとも1Mトークンのコンテキスト長を持つMixture of Expertsアーキテクチャ採用
Proモデルは総パラメータ1.6兆、アクティブ49B
Flashモデルは総パラメータ284B、アクティブ13B
MITライセンスで公開、商用利用も可能

モデル規模・比較

DeepSeek-V4-Proは現時点で最大規模のオープンウェイトモデル
これまでの**Kimi K2.6（1.1T）やGLM-5.1（754B）**を上回る規模
前世代の**DeepSeek V3.2（685B）**の2倍以上
Hugging Faceで配布：Proは865GB、Flashは160GB

ローカル実行・互換性

Flashモデルは128GBメモリのMacBook Proでも量子化すれば動作可能性
Proモデルは必要なエキスパートのみディスクからストリーミングすれば実行可能性

OpenRouter経由でモデルを試用可能

コマンド例:

llm install llm-openrouter
llm openrouter refresh
llm -m openrouter/deepseek/deepseek-v4-pro 'Generate an SVG of a pelican riding a bicycle'

価格・コスト比較

DeepSeek V4 Flash
入力$0.14/100万トークン、出力$0.28/100万トークン
DeepSeek V4 Pro
入力$1.74/100万トークン、出力$3.48/100万トークン
競合モデルとの比較表

| モデル | 入力($/M) | 出力($/M) | |-------------------------|-----------|-----------| | DeepSeek V4 Flash | 0.14 | 0.28 | | GPT-5.4 Nano | 0.20 | 1.25 | | Gemini 3.1 Flash-Lite | 0.25 | 1.50 | | Gemini 3 Flash Preview | 0.50 | 3.00 | | GPT-5.4 Mini | 0.75 | 4.50 | | Claude Haiku 4.5 | 1.00 | 5.00 | | DeepSeek V4 Pro | 1.74 | 3.48 | | Gemini 3.1 Pro | 2.00 | 12.00 | | GPT-5.4 | 2.50 | 15.00 | | Claude Sonnet 4.6 | 3.00 | 15.00 | | Claude Opus 4.7 | 5.00 | 25.00 | | GPT-5.5 | 5.00 | 30.00 |
- Flashは小型モデルで最安、Proも大規模モデルで最安

効率性とアーキテクチャの特徴

1Mトークンコンテキストにおいても高効率
- Proモデル：DeepSeek V3.2比でFLOPs27%・KVキャッシュ10%
- Flashモデル：同じくFLOPs10%・KVキャッシュ7%
効率化設計により低コストを実現

性能・ベンチマーク

DeepSeek論文内ベンチマークでProモデルはフロンティアモデルと競合
- GPT-5.2やGemini-3.0-Proよりも高性能
- GPT-5.4やGemini-3.1-Proにはやや劣る（約3～6ヶ月の開発差）

今後の展望・量子化モデル

Unslothチームによる量子化版モデルの公開が期待
Flashモデルがローカルマシンでどこまで動作するかに注目

Hackerたちの意見

最近、v4 proを使ってみたんだけど、正直なところ、品質的にはOpenAIの5.4やOpus 4.6とほぼ同じくらいかな（4.7は試してないけど）。言っておくけど、最先端のことをやってるわけじゃないよ。フロントエンド開発に使ってるんだけど、あんまり得意じゃないから、見た目がそこそこ良いプロトタイプが必要なんだ。でも、私の用途には十分なモデルだし、価格も悪くない。早くローカルで動かせるオープンモデルが出てほしいな。他人のマシンに頼るのは嫌だし、データが漏れちゃうのも怖いから。

└

経験をシェアしてくれてありがとう、私も試してみたいな。推論にはどのプロバイダーを使ってるの？OpencodeそれともDeepSeek API？

└

Tinfoilを使えば推論ができて、クラウドでモデルを使いつつ、ローカルで動かすのと同じくらいプライバシーを保てるよ：https://tinfoil.sh/inference。ちなみに、私は共同創業者です。これは、モデルをセキュアエンクレーブ内で実行して（NVIDIAの機密コンピューティングを使用）、エンクレーブ内で動いているオープンソースコードがランタイムの証明と一致していることを確認することで機能します。ドキュメントが検証プロセスを説明してるよ：https://docs.tinfoil.sh/verification/verification-in-tinfoil

今、AnthropicのMaxサブスクリプション（100ドルのやつ）を払ってるんだけど、5時間の制限にしょっちゅう達しちゃうか、近づいちゃう。リセット前にはだいたい週の制限の60〜80%くらいまで行くかな（Opus 4.7で全部高い思考を使ってるけど、CCがHaikuとかでサブエージェントを生成することに決めない限り）。そのトークンはかなり補助されてるけど、DeepSeekのAPI料金はすごく良さそう。例えば、エージェント的なコーディングセットアップ（入力85%、出力15%、キャッシュリード90%くらい）だと、同じ100ドルで月に約150Mトークンが手に入る。出力トークンがもっと多くてキャッシュパフォーマンスが悪くても、100M以上は確実にいけそう。

└

Twitterで誰かが、現在の価格レベルで約10ドルで>200Mトークンを手に入れたって言ってたよ。

└

V4 APIの非補助金価格はどれくらいになるの？大きなモデルの3倍安く設定できるのかな？OpenRouterでは、この1600Bパラメータモデルが0.4ドルで、Kimi 2.6の1000Bパラメータは0.7ドル、GLM 5.1の754Bパラメータは1.0ドルだよ。

└

フラッシュを使ってるけど、めっちゃいいよ。150Mトークンで2ドル。

Deepseek v4 ProはClaude Opus 4.6に似た性格を持ってるけど、コストについてわかったことをシェアするね。私はDeepseek v4を使って、そこそこ大きなTypescriptコードベースで、特定のエンドポイントにだけ集中して、層ごとに深掘りするように頼んだんだ（API、DTO、サービス、データベースモデルなど）。それで、関わる型の全体像を形成して、アドホックな型が導入されないようにした。型の導入についての非常に簡潔で的を絞った要約ができて、どの型が返金されたかもわかったよ。それから、全部を簡略化するように頼んだ。明らかに両方のプロンプトでたくさんのファイルを確認してたけど、総コストは？たったの0.09ドルだった。Claude Opusだと（値上げ前の経験から）この2つのプロンプトだけで9ドルから13ドルくらいは簡単に使ってたと思う。注意点として、Open routerは使わずにDeepseek APIを直接使ったよ。Open router自体がDeepseekに制限されてたから。

└

75%の割引を考慮しても、まだかなり安いよね。

└

Opus 4.6と似てるのは名前の4だけだね。こういう不誠実な比較が理解できない。OOSモデルはクールで、安くて、未来に期待できるけど、なんで実際よりも良いふりをしてるんだろう？

└

どうやって使ったの？OpenRouter、それとも直接プロバイダーから？

Deepseekの価格ページから： (3) deepseek-v4-proモデルは現在75%の割引が適用されていて、2026年5月31日15:59 UTCまで延長されてる。このモデルをレビューする際にこれが考慮されたの？

└

そうだね、中国のオープンモデルでも推論コストが安くないって問題がある。AIバブルが崩壊する唯一の方法は、単により効率的なハードウェアを低コストで導入することと、インフラのセットアップダウンタイムを減らすことだと思う。

└

明らかに、みんなユーザー獲得のために補助金を出してるよね。結局、人々にモデルを試してもらうためには、ちょっとしたお誘いが必要だから。Claudeのコードサブスクリプションは、私にとっては一つの選択肢。DeepSeek Proは、補助金付きのProと比べて65/86%安いし、現在の補助金を考えると91/97%安いよ。FlashとSonnet 4.6の比較だと、95/98%だね。

└

記事では、定価が引用されています。

週末にオープンコードを通じてDeepseek v4を試してみたよ。私は毎日Claude/Claudeコードを使ってるんだけど、何かシンプルなものを作ろうとしたら、仕事はこなせたけど、表示された思考には自信が持てなかった。ページが何ページも「実際には違う」「ちょっと待って」「それは意味がない」って感じだった。モデルが崩壊してるみたいだった。オープンコードも私には新しいものだったから、普段見ないところで思考を見てるだけかもしれないけど。

└

> オープンコードも初めてだったから、普段考えないところを見ているだけかもしれないね。まあ、それが問題なんだけど。編集: ChatGPTやCodexでも似たようなことを見た記憶があるけど、どの文脈だったかは思い出せないな。

└

GLM 5.1を使っていると似たようなことが見えるね。思考トレースをオフにしないと、見てるだけで不安になっちゃったよ。

└

理論的には、難しい質問に合わせて調整されてる気がする。エージェント的な作業には向いてないかも。考えすぎてる感じがする。すごく難しい質問にはいいけど、小さなステップには向かない。思考を無効にして、しっかりした指示を使って、行動を取る前に毎回トークンを出させるようにすれば、助けになるかもしれない。でも、確かめる方法は一つだけだね。

└

CCとCodexが思考や冗長な部分を隠す前は、両方ともそうだったよね。

└

Opus 4.6とGPT 5.4は、GH CopilotやBedrockを通じて同じことをしてるよ。「実は最もシンプルな解決策は...、いや、実は...、最良の修正は...」っていうのがよくある。

└

Claude Codeを通じて使えば、慣れ親しんだシステムプロンプトやツールをそのまま使えるよ。サードパーティのモデルはClaude Codeで`ANTHROPIC_BASE_URL`を使えば簡単に置き換えられるのに、今はそれを見落としてる人が多いみたい。Anthropicが思わせたいこととは逆に、Opus 4.7を使わなくても同じパフォーマンスを得るためのハーネスを実行できるよ。https://api-docs.deepseek.com/quick_start/agent_integrations...

└

> 「実際には違う」「ちょっと待って」「それは意味がない」クラウドも同じことをしてるけど、クラウドコードは今は考えを隠してるだけ。

└

> 簡単なものを作ろうとしたけど、仕事はできたものの、表示された思考には自信が持てなかった。ページをめくるごとに「実際には違う」「ちょっと待って」「それは意味がない」ばっかりだった。モデルが壊れかけてるみたいだったよ。自分の「思考」を定期的に評価するように訓練されてるのか、その結果を出力してるんだろうね。推論のテキスト内容についてはあまり心配しなくていいと思うし、クローズドモデルの「要約」と対比するのもいいから、何が起こってるか見やすいよね。

└

opencodeでhide_thinkingを使って、クラウド体験を楽しんでみてね :p

フロンティアモデルよりコストは低いけど、DS4 ProとK2.6が見た目ほど安くない理由が2つあるよ。まず、DS4 Proには公式APIの割引があって、これが議論の中で見落とされがちなんだ。サイモンは比較の際に定価を使ってるから、ここでは問題ないけどね。もう一つの問題は、DS4 ProとK2.6がフロンティアモデルよりもはるかに多くの推論トークンを使うことが多いってこと。私のテストでは、特定の病的なケースがあって、リクエストがフロンティアモデルと同じコストになることもあるんだ。公平を期すために言うと、私はDSとkimiをサードパーティのプロバイダー経由で使ってるから、設定に問題があるかもしれない。でも、モデルの人工分析ページを見ると、DSv4 Proはインテリジェンスベンチマークで190Mトークン、K2.6は170Mトークン使ってるのに対し、GPT 5.5（ハイ）は45Mしか使ってないよ。[0][1][2] 「インテリジェンス対コストの人工分析インデックス」を見ることをおすすめするよ（UIでは「インテリジェンス対コスト」）。オープンソースモデルはまだ運用コストが安いけど、トークン価格だけ見てると考えてるほどではないよ。

└

確かにそういうこともあるけど、私の経験ではそうじゃなかったな。結構大規模なリファクタリングを一日中使って、何度もやり取りして、数千行のコード変更やレビュー、調査、複数のサブエージェントが並行してタスクを実行するようなことをやったけど、合計コストは$0.95だったよ。以前にOpus 4.6でこれを試みたことがあったけど、初期のプロンプトから戻る前に$10の予算を使い切っちゃった。たとえ大幅に割引されていても、完全なソリューションに対しては一桁のコストで済んだのに、何も得られないのに二桁のコストがかかるなんて。

DeepSeekの公式APIは、同じコードベース内で長時間連続して使うと、キャッシュヒット率が99%以上になるから、フロンティアモデルよりずっと安く済むよ。200Mトークンのセッションの例があるんだ。

ちょっとバカな質問かもしれないけど、なんでプロはフラッシュよりも悪いペリカンになるの？

マット・ポコックのプランニングフレームワークを使って、典型的なブラウンフィールドコードを扱ってるよ。クラウドコードの上にハーネスを使ってるんだけど、これがめっちゃ安いから、最初のプロンプトをミラーリングして、タスクに対する反応を比べてみたくなる。

補助金のサーカスが終わって、みんなが純粋な使用に移行したとき、月200ドルの予算がない普通の人たちにも完全に排除されないことを期待してる。

└

個人的には、価格対能力比が今日と比べて急上昇するような大きな rug pull は見られないんじゃないかと楽観的になれる2つの理由がある。 * あなたも指摘したように、人々はどんどん小さいモデルにもっと知能を詰め込む方法を見つけてるから、特定のハードウェアスペックが時間とともにより多くのモデル能力を提供するようになる。 * ハードウェアは引き続き改善され、供給が需要に追いつくから、ドルあたりのハードウェアスペックも時間とともに増えるだろう。いつか「プロバイダーAPIを通じてAIにアクセスする」という現在のモデルを、今の「みんなが会社のメインフレームに接続していた時代」を振り返るように見れる日が来るといいな。

└

事態が落ち着く頃には、個人的なインタラクティブな利用が200ドル以下ではできないんじゃないかと思うよ。これらのコストのモデルを公に報告されているものと照らし合わせるのは難しいし、もっと悲観的な例でもそうだね。

ハクソク