概要
ds4.c は DeepSeek V4 Flash 専用の軽量ネイティブ推論エンジン。 llama.cpp と GGML の知見を活かしつつ、Metal専用グラフ実行・KVキャッシュ圧縮・長大なコンテキスト対応を実現。 2bit量子化 や 1Mトークンウィンドウ など独自最適化を実装。 OpenAI/Anthropic互換API を備え、エージェント連携やローカル推論検証も重視。 MacBook/Mac Studioなど 128GB以上RAM 搭載機向け設計。
ds4.c:DeepSeek V4 Flash専用推論エンジンの特徴
-
DeepSeek V4 Flash 専用設計のMetalグラフ実行エンジン
- GGUFファイル の独自読み込み・プロンプト描画・KVステート管理・サーバAPI連携
- 他ランタイムやフレームワークのラッパーではなく、単独動作を重視
-
llama.cpp と GGML への多大な謝意
- GGMLのカーネル・量子化形式・GGUFエコシステムの知見を活用
- 一部コード・設計をMITライセンス下で流用・改変
-
DeepSeek V4 Flash モデルの優位性
- アクティブパラメータが少なく高速動作
- 思考セクション長が問題の複雑さに比例し、他モデルの1/5程度
- 1Mトークンの巨大コンテキストウィンドウ に対応
- 英語・イタリア語の文章生成能力が非常に高い準フロンティアモデル
- KVキャッシュの高圧縮 でローカル長文推論やディスク永続化が可能
- 特殊な2bit量子化 による高効率動作(MacBook 128GB RAMで動作可能)
-
プロジェクト方針
- 一度に一つのモデルのみ対応、 公式実装のlogits検証 ・長文テスト・エージェント連携重視
- 高性能パーソナルマシン(128GB RAM以上) で信頼できるローカル推論を目指す
- コードは GPT 5.5 の支援と人間の設計・検証による共同開発
- Metal専用 (将来的にCUDA対応の可能性あり)、CPU経路は動作保証外(macOSカーネルバグによるクラッシュ注意)
モデル・量子化・ダウンロード
- 対応モデルはDeepSeek V4 Flash専用GGUFのみ
- 他のDeepSeek/GGUFファイルは非対応(テンソルレイアウト・量子化・メタ情報が異なるため)
- 2bit量子化(q2) と 4bit量子化(q4) モデルを提供
- q2:128GB RAMマシン向け
- q4:256GB以上RAMマシン向け
- ダウンロード方法
./download_model.sh q2または./download_model.sh q4でモデル取得- モデルは
./gguf/以下に保存、curl -C -で途中再開対応 - MTP(推測デコード)GGUF もオプションで取得可能(
./download_model.sh mtp)
ビルド・実行・CLI操作
- ビルド
makeでビルド- デフォルトモデルパスは
./ds4flash.gguf
- CLI操作例
- ワンショットプロンプト:
./ds4 -p "Explain Redis streams in one paragraph." - インタラクティブチャット:
./ds4(複数ターン、KVチェックポイント引継ぎ) - コマンド例:
/help、/think、/nothink、/ctx N、/quitなど - Ctrl+C で生成中断可能
- ワンショットプロンプト:
サーバ機能・API互換
- OpenAI/Anthropic互換APIサーバ
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192- Metal専用、1セッションのみ同時保持(バッチ未対応)
- エンドポイント例
GET /v1/modelsPOST /v1/chat/completions(OpenAI互換)POST /v1/messages(Anthropic/Claude互換)
- SSEストリーミング対応
- ツール呼び出し はDSML形式からOpenAI/Anthropic形式に自動変換
パフォーマンス・推論速度
- 推論速度例(q2, --ctx 32768, Metal, -n 256)
- MacBook Pro M3 Max (128GB):短文 58.52 t/s(プリフィル)、26.68 t/s(生成)
- Mac Studio M3 Ultra (512GB):短文 84.43 t/s(プリフィル)、36.86 t/s(生成)
- 11709トークン長文入力時も高速(プリフィル最大468 t/s)
エージェントクライアント連携
- OpenAI互換エージェント(opencode, Pi等)で利用可能
-
サーバ起動後、クライアント設定ファイルで
baseURLやcontext等を指定 -
1Mトークンウィンドウ使用時は26GB以上メモリ消費 (q2量子化で81GBモデル+22GBインデックス等)
-
128GB RAM環境では100k~300kトークン程度が現実的
-
出力上限384kトークン で極長文生成も可能(ただしウィンドウ制限あり)
-
opencode用設定例
~/.config/opencode/opencode.jsonにds4プロバイダー・エージェントを追加
-
Pi用設定例
~/.pi/agent/models.jsonにds4プロバイダー・モデルを追加
-
ライセンス・謝辞
- GGML, llama.cpp の著作権表示をLICENSEに明記
- MITライセンス 下で一部コード・カーネル・量子化ロジック等を活用
- llama.cpp, GGML, Georgi Gerganov氏および全コントリビューターに深謝
注意事項・今後の展望
- 現状はアルファ品質コード、今後の改善・新バージョン対応に期待
- Metal専用、CPU経路はmacOSバグによりクラッシュするため非推奨
- 今後CUDA対応の可能性 あり
- AI生成コードに抵抗がある場合は非推奨
ds4.c は DeepSeek V4 Flash の性能を最大限に引き出すために設計された、ローカル推論エンジンの決定版。 大規模コンテキスト・高速性・圧縮キャッシュ・API互換性を備え、 128GB以上RAM搭載Mac での利用に最適。 llama.cpp ・ GGML の知見を活かしつつ、現代的なローカルAI体験を提供。