2026年 antirez ds4 ローカル DeepSeek V4: 96GB 要件、Metal 性能とクラウド高メモリ Mac レンタル意思決定ガイド
Redis 作者 Salvatore Sanfilippo(antirez) が最近 OSS した ds4(DwarfStar 4) は、純 C で書かれた DeepSeek V4 Flash 専用のローカル推論エンジンです。284B パラメータの MoE モデルを、初めて消費者向け Apple Silicon Mac 上で実用的に動かせます。リリースから数日で GitHub Star は 1 万を超え、コミュニティの熱量は Redis 登場時に匹敵します。
本記事を読み終えると、次の三点に答えられます。① ds4 と llama.cpp / Ollama など汎用ソリューションの本質的な違い。② Flash / PRO を動かすのに必要なユニファイドメモリ量と、公式 benchmark のおおよその水準。③ 自前の Mac Studio が数十万円規模になるとき、高メモリベアメタル Mac をオンデマンドで借りる(JEXCLOUD マルチリージョンノード)方が現実的な入口になる理由と、六段階の導入チェックリスト。
01 ds4 とは:単一モデル特化が 2026 年に急浮上した理由
多くのローカル推論ツールは「汎用ルート」を取ります。llama.cpp は数百のアーキテクチャを読み込め、Ollama はその上に CLI を載せ、MLX は Apple エコシステム向けの変換を担います。ds4 は逆を行き——DeepSeek V4 Flash 一本だけをサービスします。README には「intentionally narrow」と明記されています。GGUF 万能ローダーでもなく、他 runtime のラッパーでもなく、Metal / CUDA グラフ実行器を自前で持ち、DS4 専用ローダー、Prompt レンダリング、Tool Calling、KV 状態(メモリとディスク)、ds4-server API、組み込みコーディング Agent まで一式で提供します。
antirez は公開インタビューで、約 1 週間の集中開発で「ローカルモデルが日常の Claude / GPT 呼び出しを置き換えられるか」を検証したと述べています。これが ds4 ブームの根底にある物語です。ボトルネックは推論エンジンの抽象化ではなく、十分に前沿に近く、大メモリマシンに収まるオープンウェイトがあるかにあります。284B 総パラメータ / 約 13B アクティブの MoE である DeepSeek V4 Flash は、ds4 の非対称 2/8-bit 量子化とディスク KV により、「Mac 上でオフラインのコーディング Agent」がデモから日常利用へ移行しました。
- ターゲットハードウェアが明確:Metal が macOS の第一 backend で、96GB 以上のユニファイドメモリを持つ MacBook Pro / Mac Studio が前提です。Linux 側では CUDA(DGX Spark 等)も並行して進んでいます。
- コミュニティ検証が速い:第三者ベンチマークは 128GB MacBook で 18 の実タスクを完了し、長コンテキストコーディング、Tool Calling、Agent ループをカバーしました。「特化エンジン + 専用 GGUF」が超大 MoE を許容可能なレイテンシに初めて引き下げた、という結論です。
- クラウド API と補完関係:ds4 は「固定モデル、プライバシー重視、オフライン可用」に向きます。フル精度やチーム共有 endpoint が必要ならクラウド API を選ぶべきで、選定は白黒つけない方がよいです。
一言で言えば、ds4 は「一つのことだけをする」代わりに「DeepSeek V4 Flash を Mac 上で使える速度まで持っていく」。熱量は技術的実現性と antirez 個人の信用が重なった結果です。
02 ds4 の技術ハイライトと「汎用ローカル推論」意思決定マトリクス
ds4 に投資する前に、「モデルを差し替えて遊びたい」と「DeepSeek V4 Flash の生産性が欲しい」を切り分けてください。以下のマトリクスは三つの代表的パスを比較し、チームの期待値を揃えるためのものです。
| 観点 | ds4(DwarfStar 4) | llama.cpp / Ollama / MLX | クラウド API(Claude / GPT 等) |
|---|---|---|---|
| モデル範囲 | DeepSeek V4 Flash のみ(リポジトリ進化中の PRO パス含む) | 多アーキテクチャ、多量子化、週次更新 | ベンダー全ラインナップのクローズド / オープンモデルホスティング |
| ハードウェア重点 | 96GB+ ユニファイドメモリ Mac;CUDA 大 VRAM ワークステーション | モデル次第、小モデルなら 16GB マシンでも試せる | ローカル HW 不要、token 従量課金 |
| 差別化機能 | ディスク KV 永続化、百万トークン級コンテキスト設計、ネイティブ Tool Calling、ds4-server が OpenAI / Anthropic プロトコル互換 |
エコシステムプラグイン豊富、コミュニティ量子化が充実 | フル品質、マルチモーダル、エンタープライズ SLA |
| プライバシーとオフライン | 重みと推論がすべてローカル / 専有インスタンス内 | 同左だが大モデルには十分なメモリが必要 | データが第三者を経由、ネットワーク依存 |
| 典型的な痛点 | 参入コスト高(メモリ + ダウンロード + ビルド);モデルが単一 | 超大 MoE は動かないか極端に遅い | 長期 token コスト、コンプライアンス、レート制限 |
ds4 の技術ポイントを個別に押さえておくと、「なぜ Mac なのか」の議論の方向が定まります。
- Metal グラフ実行器:DeepSeek V4 Flash 向けの演算子融合であり、汎用グラフ走査ではありません。公式 benchmark では M3 Ultra 512GB で長 prompt prefill が数百 t/s 級に達します(§05 参照、antirez/ds4 README より)。
- 非対称量子化:ルーティング expert にはより攻撃的な 2-bit、その他の層はより高精度を維持し、Flash を 128GB 級マシンで動かせます。README には 512GB Mac Studio で q4 を使うパスも記載されています。
- ディスク KV Cache:セッション KV をディスクに書き出し、macOS の高速 SSD と組み合わせて再起動後もコンテキストを保持し、prefill の重複を減らします。長いリポジトリ級 Agent タスクで特に重要です。
- コーディング Agent 内蔵:CLI と
ds4-serverは Cursor、opencode などのツールチェーン向けにテストされ、「ローカルモデルを IDE に接続する」ためのボイラープレートを減らします。
なぜ Mac なのか(コンシューマー向け)? Apple Silicon のユニファイドメモリアーキテクチャ(UMA)は CPU / GPU が同一の大容量メモリプールを共有し、同価格帯で帯域に匹敵する製品は少ないです。ds4 の Metal backend とディスク KV は「大メモリ + 高速 SSD」が同時に成立することを前提とします。一般的なクラウド GPU インスタンスは VRAM が 80GB で頭打ちになり、q2 量子化の 284B 級重みを丸ごと載せられないことが多いです。載せても帯域と MoE ルーティングで生成速度が許容できない場合があります。ds4 の RTX PRO 6000 96GB 上のコミュニティ実測(短生成で約 43 tok/s)は CUDA パスが成立することを示しますが、大多数の開発者にとって 128GB Mac + Metal がドキュメントと事例の中心です。
03 DeepSeek V4 のローカル展開:96GB 要件とハードウェア購入意思決定マトリクス
ds4 の技術が魅力的でも、メモリ容量が最初のフィルターです。以下のマトリクスはリポジトリ説明とコミュニティ展開経験を統合したものです(購入価格は 2026 年国内市場の目安であり、予算計画用です。実価格は販路により異なります)。
| モデル / 量子化 | 最低ユニファイドメモリ | 典型機種 | 購入コスト目安(参考) |
|---|---|---|---|
| V4 Flash(q2) | 96 GB | MacBook Pro M3/M4/M5 Max | 約 40 万円〜 |
| V4 Flash(q4) | 256 GB | Mac Studio Ultra | 約 80 万円〜 |
| V4 PRO(q2) | 512 GB | Mac Studio M3 Ultra 最上位構成 | 約 150 万円〜 |
これにより、次の三つの痛点が繰り返し現れます。
- 一度きりの CAPEX が高い:個人開発者や 5 人未満のチームが「前沿ローカルモデルの試用」のために Ultra を単独調達するのは難しいです。
- 利用率が不確定:推論負荷はリリース週や調査週に集中し、それ以外はアイドルになりがちで、自前マシンの減価償却が早いです。
- 環境構築コスト:マシンを買っても ds4 のビルド、数百 GB 級 GGUF の取得、Metal と
ds4-serverの調整が必要で、時間コストはハードウェア以上になることがあります。
目標が「Mac を所有する」から「指定週内に ds4 Agent を動かす」へ移ると、128GB / 512GB 構成のベアメタル Mac をオンデマンドで借りる選択は資産購入から OPEX へシフトし、タスクに応じてノードサイズを切り替えられます。レンタル期間と日次 / 週次 / 月次の組み合わせについては、サイト内の プロジェクト単位クラウド Mac レンタルコストマトリクスを参照してください。本記事は高メモリ推論シナリオに焦点を当てます。
04 クラウド高メモリ Mac で ds4 を動かす:六段階チェックリスト
以下の手順は、注文ページから JEXCLOUD ベアメタル Mac(128GB 以上推奨)を開通し、SSH / VNC でログイン済みであることを前提とします。ローカルに 96GB+ の物理マシンがある場合も同じ手順で、レンタル部分だけ省略できます。
- タスクと量子化の選定:Flash q2(128GB の方が余裕)か q4 / PRO かを確定し、チーム内で「オフライン Agent」か「CLI 試用のみ」かを揃えます。レンタル途中でメモリ不足により構成変更が必要になるのを避けます。
- ノード開通と検収:コンソールで高メモリ SKU(M4 Max 128GB や Studio 級 512GB 等)を選び、SSH 鍵を注入します。
sysctl hw.memsizeとsystem_profiler SPDisplaysDataTypeでメモリと Metal の可用性を確認します。 - ds4 と依存関係の取得:
git clone https://github.com/antirez/ds4.gitを実行し、macOS 上でmakeにより Metal 版をビルドします。README は CPU-only パスが一部 macOS バージョンで VM 関連問題があると警告しており、本番推論では Metal / CUDA backend を使う必要があります。 - モデル重みの準備:リポジトリドキュメントに従い q2 / q4 GGUF をダウンロード(数十 GB から数百 GB)し、checksum を検証します。重みはローカル SSD に置き、ディスク KV とログ用の空き容量を確保します。
- サービス起動とスモークテスト:まず
./ds4 -p "Hello" --metalで短 prompt のスモークを行い、続けて./ds4-serverを起動します。curl で OpenAI 互換形式の completion をリクエストし、prefill / generation 速度が README benchmark と同程度か記録します。 - IDE / Agent ツールチェーン接続:Cursor 等のクライアントで Base URL をインスタンス内網、または SSH トンネルで公開した
ds4-serverアドレスに向け、API Key を設定(有効時)します。実リポジトリ級の refactor やテスト生成タスクを走らせ、Tool Calling と長コンテキスト KV 再利用が期待通りか確認してからレンタル延長を判断します。
メモリと Metal の事前チェック
sysctl hw.memsize
./ds4 -p "Summarize KV cache design in one sentence." --metal
OpenAI 互換ローカルサービス起動(ポートはリポジトリ既定に従う)
./ds4-server --metal
curl -s http://127.0.0.1:PORT/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model":"deepseek-v4-flash","messages":[{"role":"user","content":"ping"}]}'
05 引用可能な技術データ:公式 benchmark とモデル仕様(出典付き)
社内評価レポートや予算申請では、以下の出典付きデータポイントをそのまま引用できます(いずれも antirez/ds4 リポジトリの公開 benchmark 表より。条件は README に準拠):
- モデル仕様:DeepSeek V4 Flash は 284B 総パラメータ MoE、アクティブ約 13B。ds4 はこの checkpoint 向け量子化とグラフ融合をハードコードしており、他 GGUF にそのままは使えません。
- MacBook Pro M3 Max(128 GB)· q2 · 短 prompt:prefill 約 58.52 t/s、generation 約 26.68 t/s。
- MacBook Pro M3 Max(128 GB)· q2 · 長 prompt(約 11.7k tokens):prefill 約 250.11 t/s、generation 約 21.47 t/s。
- Mac Studio M3 Ultra(512 GB)· q2 · 長 prompt:prefill 約 468.03 t/s、generation 約 27.39 t/s;q4 長 prompt prefill 約 448.82 t/s、generation 約 26.62 t/s。
- DGX Spark GB10(128 GB)· CUDA · q2:長 prompt prefill 約 343.81 t/s、generation 約 13.75 t/s——非 Mac パスも成立しますが、生成速度はメモリ帯域に強く制約されます。
M5 Max 等の新ハードでのコミュニティ実測(prefill 463 t/s 級など)はトレンド参考にできますが、対外資料ではリポジトリ表を基準にし、脚注でテスト日と量子化バージョンを明記することを推奨します。
06 レンタル vs 購入:いつ JEXCLOUD 高メモリベアメタルで ds4 を受けるか
antirez は ds4 で示しました。技術的には、コンシューマー向け大メモリ Mac が DeepSeek V4 級のローカル推論をすでに担えるのです。本当の障壁は多くの場合、ハードウェア CAPEX と環境構築時間であり、C コードが書けないことではありません。
最上位 Mac Studio の購入は「365 日フル稼働、専用 1 台」のコア R&D ポジションには依然として適しています。しかし多くのチームでは、次の代替案に致命的な弱点があります。① 通常の 16GB クラウド VM で無理に走らせる——メモリ不足で q2 重みすら載らない。② 家庭用 Mac mini で回線を共有——大モデルのダウンロードと長時間推論がアップロード帯域と近隣ノイズに阻まれる。③ パブリッククラウド API のみ——長期 Agent タスクの token 請求とデータ越境コンプライアンスが見えない上限になる。
より安定した本番パスは、JEXCLOUD マルチリージョンベアメタル Mac で 128GB / 512GB インスタンスをオンデマンド開通し、ビルドチェーンとストレージを用意し、ds4 推論が終わったら解放またはダウングレードすることです。Apple Silicon を独占し、仮想化オーバーセルなし、推論データは専有インスタンス内に留まり、第三者 API を経由しません。チームで高メモリノード 1 台を共有して評価と Agent パイロットを行う方が、全員が Ultra を購入するより経済的です。ノード仕様、リージョン、価格は JEXCLOUD 料金ページ、デプロイと SSH の問題は ヘルプセンターを参照してください。