2026: antirez ds4 и DeepSeek V4 локально — порог 96 ГБ, Metal и аренда облачного Mac с большой памятью
Автор Redis Salvatore Sanfilippo (antirez) выкатил ds4 (DwarfStar 4) — inference-движок на чистом C, заточенный под DeepSeek V4 Flash, который впервые тащит MoE на 284B параметров в рабочий режим на consumer-Apple Silicon Mac. За несколько дней репозиторий на GitHub пробил 10k stars — hype уровня раннего Redis.
После прочтения у вас будут ответы на три вопроса. Первый: чем ds4 принципиально отличается от llama.cpp / Ollama / MLX. Второй: сколько unified memory нужно для Flash / PRO и какие цифры даёт официальный benchmark в antirez/ds4. Третий: когда CAPEX на Mac Studio Ultra не проходит бюджет, аренда bare-metal Mac 128 ГБ / 512 ГБ (мультирегион JEXCLOUD) — реалистичный вход плюс чек-лист из шести шагов.
01 ds4: mono-model runtime и взрыв популярности в 2026
Большинство local inference tools идут по универсальному пути: llama.cpp грузит сотни архитектур, Ollama оборачивает CLI, MLX конвертит под Apple. ds4 делает наоборот — только DeepSeek V4 Flash, в README прямо «intentionally narrow»: не GGUF-универсал, а self-contained Metal/CUDA graph executor с DS4 loader, prompt rendering, tool calling, KV state (RAM + disk), API ds4-server и встроенным coding agent.
antirez публично описывает ~неделю hardcore dev, чтобы проверить, может ли local model заменить ежедневные вызовы Claude/GPT. Суть hype: узкое место не в abstraction layer, а в том, влезет ли frontier-grade open weights в машину с огромной RAM. DeepSeek V4 Flash — 284B total / ~13B active MoE; asym 2/8-bit quant ds4 плюс disk KV превращают «offline coding agent на Mac» из demo в daily driver.
- Target hardware явный: Metal — primary backend macOS, от 96 ГБ unified memory (MacBook Pro / Mac Studio); параллельно CUDA на Linux (DGX Spark и т.д.).
- Community validation быстрая: сторонние прогоны на 128 ГБ MacBook, 18 real-world tasks — long context, tool calling, agent loop; вывод: specialized engine + dedicated GGUF впервые дают acceptable latency на huge MoE.
- Комplement к cloud API: ds4 — fixed model, privacy, offline; full precision и team endpoint — по-прежнему API; выбор не бинарный.
One-liner: ds4 меняет «делать одно» на «заставить DeepSeek V4 Flash реально работать на Mac» — stars из feasibility плюс личный вес antirez.
02 Техстек ds4 и матрица против generic local inference
До commit ресурсов разделите «хочу swap моделей» и «хочу DeepSeek V4 Flash как production stack». Матрица ниже выравнивает ожидания команды.
| Измерение | ds4 (DwarfStar 4) | llama.cpp / Ollama / MLX | Cloud API (Claude / GPT и др.) |
|---|---|---|---|
| Scope моделей | Только DeepSeek V4 Flash (PRO path в разработке) | Multi-arch, weekly model drops | Vendor portfolio, часто closed |
| Hardware bias | Mac 96 ГБ+ unified memory; CUDA workstation | Зависит от модели; мелкие с 16 ГБ | Без local iron, pay-per-token |
| Differentiators | Disk KV, million-token context design, native tool calling, ds4-server OpenAI/Anthropic compatible |
Plugin ecosystem, community quants | Full quality, multimodal, enterprise SLA |
| Privacy / offline | Weights и inference на своей машине / instance | То же, но big models требуют RAM | Third party, network-bound |
| Typical pain | High entry (RAM + download + build); single model | Huge MoE часто un runnable или crawl | Long-run token bill, rate limits, compliance |
Четыре tech lever, объясняющих Mac-centric narrative:
- Metal graph executor: operator fusion под V4 Flash, не generic graph walk; README benchmark M3 Ultra 512 ГБ — long prompt prefill в сотнях t/s (antirez/ds4).
- Asymmetric quant: routing experts агрессивнее 2-bit, остальные слои точнее — Flash на 128 ГБ viable; q4 path на 512 ГБ Mac Studio в docs.
- Disk KV cache: session KV на SSD, context переживает reboot — critical для repo-scale agent tasks.
- Built-in coding agent: CLI и
ds4-serverгонялись с Cursor, opencode — меньше glue в IDE integration.
Почему Mac в consumer segment? UMA Apple Silicon: CPU/GPU делят один fat memory pool с bandwidth, которому на этом price tier мало кто конкурирует. Cloud GPU с VRAM cap 80 ГБ часто не вмещает q2 weights 284B class; даже если влезло — MoE routing + bandwidth убивают gen speed. Community CUDA на RTX PRO 6000 96 ГБ (~43 tok/s short gen) доказывает: CUDA works, но 128 ГБ Mac + Metal — documented main battlefield.
03 DeepSeek V4 local: порог 96 ГБ и матрица hardware CAPEX
Какой бы ни был engine, гигабайты unified memory — первый фильтр. Матрица из repo docs и deployment reports (цены покупки — оценка рынка 2026; каналы отличаются).
| Модель / quant | Min unified memory | Typical iron | CAPEX (ref.) |
|---|---|---|---|
| V4 Flash (q2) | 96 ГБ | MacBook Pro M3/M4/M5 Max | от ~$4 200 |
| V4 Flash (q4) | 256 ГБ | Mac Studio Ultra | от ~$8 500 |
| V4 PRO (q2) | 512 ГБ | Mac Studio M3 Ultra top spec | от ~$15 000 |
Три recurring blocker:
- One-shot CAPEX: solo dev и команды до 5 человек редко approve Ultra ради «потыкать frontier local».
- Utilization spiky: inference load pulsed — release week hot, потом idle; depreciation быстрая.
- Setup tax: build ds4, pull сотни GB GGUF, debug Metal и
ds4-server— time cost сопоставим с iron.
Когда goal shift с «own Mac» на «ds4 agent за N недель», on-demand bare-metal 128 ГБ / 512 ГБ переводит decision из asset в OPEX. Матрица сроков аренды: аренда облачного Mac под проект; здесь — high-memory inference.
04 ds4 на облачном Mac с большой памятью: шесть шагов
Flow assumes bare-metal Mac через order page (рекомендуем от 128 ГБ), login SSH/VNC. На local 96 ГБ+ physical Mac — те же шаги без rental step.
- Task и quant pick: Flash q2 (128 ГБ comfortable) vs q4/PRO; align team на «offline agent» vs «CLI poke» — избегает mid-lease SKU swap.
- Provision и acceptance: high-memory SKU (M4 Max 128 ГБ или Studio 512 ГБ), SSH key inject;
sysctl hw.memsizeиsystem_profiler SPDisplaysDataType— RAM и Metal sanity check. - Pull ds4 и deps:
git clone https://github.com/antirez/ds4.git,makeдля Metal; README: CPU-only path на некоторых macOS — VM issues; prod inference только Metal/CUDA. - Model weights: q2/q4 GGUF по docs (десятки–сотни GB), checksum verify; SSD path с headroom под disk KV и logs.
- Service и smoke:
./ds4 -p "Hello" --metal; затем./ds4-server, curl OpenAI-compatible — prefill/generation vs README benchmark band. - IDE / agent toolchain: Cursor Base URL на instance или SSH tunnel к
ds4-server; real repo refactor с tool calling и KV reuse; потом решение extend lease.
Memory и Metal preflight
sysctl hw.memsize
./ds4 -p "Summarize KV cache design in one sentence." --metal
OpenAI-compatible local service
./ds4-server --metal
curl -s http://127.0.0.1:PORT/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model":"deepseek-v4-flash","messages":[{"role":"user","content":"ping"}]}'
05 Citeable data: official benchmark и model specs
Для internal eval или budget request — с источником (public table antirez/ds4, test conditions в README):
- Model spec: DeepSeek V4 Flash 284B MoE, ~13B active; ds4 hardcodes quant и graph fusion — не portable на random GGUF.
- MacBook Pro M3 Max (128 ГБ) · q2 · short prompt: prefill ~58,52 t/s, generation ~26,68 t/s.
- M3 Max (128 ГБ) · q2 · long prompt (~11,7k tokens): prefill ~250,11 t/s, generation ~21,47 t/s.
- Mac Studio M3 Ultra (512 ГБ) · q2 · long prompt: prefill ~468,03 t/s, generation ~27,39 t/s; q4 long prefill ~448,82 t/s, generation ~26,62 t/s.
- DGX Spark GB10 (128 ГБ) · CUDA · q2: long prefill ~343,81 t/s, generation ~13,75 t/s — non-Mac path viable, gen bandwidth-limited.
Community M5 Max numbers (prefill ~463 t/s) — trend signal; для external docs stick to repo table + footnote test date и quant version.
06 Аренда vs покупка: когда JEXCLOUD high-memory bare-metal держит ds4
ds4 доказал: consumer Mac с fat unified memory уже тянет local inference класса DeepSeek V4. Реальный blocker — hardware CAPEX и setup time, не «не умеем писать на C».
Top-spec Mac Studio still fits «always-on dedicated core R&D». Для большинства три workaround ломаются: ① generic 16 GB cloud VM — q2 weights не грузятся; ② home Mac mini — upload и соседи убивают multi-GB pulls и long inference; ③ только public API — token burn и compliance ceiling на long agent runs.
Production path: on-demand JEXCLOUD multi-region bare-metal Mac 128 ГБ / 512 ГБ, build chain и storage, inference done — release или downgrade — exclusive Apple Silicon, no virt oversell, data на вашей instance без third-party API. Shared high-memory node для eval и agent pilot дешевле N× Ultra purchase. Specs и pricing: JEXCLOUD pricing; SSH deploy: help center.