Облачный Mac ds4 2026.05.26

2026: antirez ds4 и DeepSeek V4 локально — порог 96 ГБ, Metal и аренда облачного Mac с большой памятью

Автор Redis Salvatore Sanfilippo (antirez) выкатил ds4 (DwarfStar 4) — inference-движок на чистом C, заточенный под DeepSeek V4 Flash, который впервые тащит MoE на 284B параметров в рабочий режим на consumer-Apple Silicon Mac. За несколько дней репозиторий на GitHub пробил 10k stars — hype уровня раннего Redis.

После прочтения у вас будут ответы на три вопроса. Первый: чем ds4 принципиально отличается от llama.cpp / Ollama / MLX. Второй: сколько unified memory нужно для Flash / PRO и какие цифры даёт официальный benchmark в antirez/ds4. Третий: когда CAPEX на Mac Studio Ultra не проходит бюджет, аренда bare-metal Mac 128 ГБ / 512 ГБ (мультирегион JEXCLOUD) — реалистичный вход плюс чек-лист из шести шагов.

01 ds4: mono-model runtime и взрыв популярности в 2026

Большинство local inference tools идут по универсальному пути: llama.cpp грузит сотни архитектур, Ollama оборачивает CLI, MLX конвертит под Apple. ds4 делает наоборот — только DeepSeek V4 Flash, в README прямо «intentionally narrow»: не GGUF-универсал, а self-contained Metal/CUDA graph executor с DS4 loader, prompt rendering, tool calling, KV state (RAM + disk), API ds4-server и встроенным coding agent.

antirez публично описывает ~неделю hardcore dev, чтобы проверить, может ли local model заменить ежедневные вызовы Claude/GPT. Суть hype: узкое место не в abstraction layer, а в том, влезет ли frontier-grade open weights в машину с огромной RAM. DeepSeek V4 Flash — 284B total / ~13B active MoE; asym 2/8-bit quant ds4 плюс disk KV превращают «offline coding agent на Mac» из demo в daily driver.

  • Target hardware явный: Metal — primary backend macOS, от 96 ГБ unified memory (MacBook Pro / Mac Studio); параллельно CUDA на Linux (DGX Spark и т.д.).
  • Community validation быстрая: сторонние прогоны на 128 ГБ MacBook, 18 real-world tasks — long context, tool calling, agent loop; вывод: specialized engine + dedicated GGUF впервые дают acceptable latency на huge MoE.
  • Комplement к cloud API: ds4 — fixed model, privacy, offline; full precision и team endpoint — по-прежнему API; выбор не бинарный.

One-liner: ds4 меняет «делать одно» на «заставить DeepSeek V4 Flash реально работать на Mac» — stars из feasibility плюс личный вес antirez.

02 Техстек ds4 и матрица против generic local inference

До commit ресурсов разделите «хочу swap моделей» и «хочу DeepSeek V4 Flash как production stack». Матрица ниже выравнивает ожидания команды.

ds4 vs generic local inference vs cloud API (2026)
Измерение ds4 (DwarfStar 4) llama.cpp / Ollama / MLX Cloud API (Claude / GPT и др.)
Scope моделей Только DeepSeek V4 Flash (PRO path в разработке) Multi-arch, weekly model drops Vendor portfolio, часто closed
Hardware bias Mac 96 ГБ+ unified memory; CUDA workstation Зависит от модели; мелкие с 16 ГБ Без local iron, pay-per-token
Differentiators Disk KV, million-token context design, native tool calling, ds4-server OpenAI/Anthropic compatible Plugin ecosystem, community quants Full quality, multimodal, enterprise SLA
Privacy / offline Weights и inference на своей машине / instance То же, но big models требуют RAM Third party, network-bound
Typical pain High entry (RAM + download + build); single model Huge MoE часто un runnable или crawl Long-run token bill, rate limits, compliance

Четыре tech lever, объясняющих Mac-centric narrative:

  • Metal graph executor: operator fusion под V4 Flash, не generic graph walk; README benchmark M3 Ultra 512 ГБ — long prompt prefill в сотнях t/s (antirez/ds4).
  • Asymmetric quant: routing experts агрессивнее 2-bit, остальные слои точнее — Flash на 128 ГБ viable; q4 path на 512 ГБ Mac Studio в docs.
  • Disk KV cache: session KV на SSD, context переживает reboot — critical для repo-scale agent tasks.
  • Built-in coding agent: CLI и ds4-server гонялись с Cursor, opencode — меньше glue в IDE integration.

Почему Mac в consumer segment? UMA Apple Silicon: CPU/GPU делят один fat memory pool с bandwidth, которому на этом price tier мало кто конкурирует. Cloud GPU с VRAM cap 80 ГБ часто не вмещает q2 weights 284B class; даже если влезло — MoE routing + bandwidth убивают gen speed. Community CUDA на RTX PRO 6000 96 ГБ (~43 tok/s short gen) доказывает: CUDA works, но 128 ГБ Mac + Metal — documented main battlefield.

03 DeepSeek V4 local: порог 96 ГБ и матрица hardware CAPEX

Какой бы ни был engine, гигабайты unified memory — первый фильтр. Матрица из repo docs и deployment reports (цены покупки — оценка рынка 2026; каналы отличаются).

DeepSeek V4 + ds4: типичные пороги и CAPEX
Модель / quant Min unified memory Typical iron CAPEX (ref.)
V4 Flash (q2) 96 ГБ MacBook Pro M3/M4/M5 Max от ~$4 200
V4 Flash (q4) 256 ГБ Mac Studio Ultra от ~$8 500
V4 PRO (q2) 512 ГБ Mac Studio M3 Ultra top spec от ~$15 000

Три recurring blocker:

  • One-shot CAPEX: solo dev и команды до 5 человек редко approve Ultra ради «потыкать frontier local».
  • Utilization spiky: inference load pulsed — release week hot, потом idle; depreciation быстрая.
  • Setup tax: build ds4, pull сотни GB GGUF, debug Metal и ds4-server — time cost сопоставим с iron.

Когда goal shift с «own Mac» на «ds4 agent за N недель», on-demand bare-metal 128 ГБ / 512 ГБ переводит decision из asset в OPEX. Матрица сроков аренды: аренда облачного Mac под проект; здесь — high-memory inference.

04 ds4 на облачном Mac с большой памятью: шесть шагов

Flow assumes bare-metal Mac через order page (рекомендуем от 128 ГБ), login SSH/VNC. На local 96 ГБ+ physical Mac — те же шаги без rental step.

  1. Task и quant pick: Flash q2 (128 ГБ comfortable) vs q4/PRO; align team на «offline agent» vs «CLI poke» — избегает mid-lease SKU swap.
  2. Provision и acceptance: high-memory SKU (M4 Max 128 ГБ или Studio 512 ГБ), SSH key inject; sysctl hw.memsize и system_profiler SPDisplaysDataType — RAM и Metal sanity check.
  3. Pull ds4 и deps: git clone https://github.com/antirez/ds4.git, make для Metal; README: CPU-only path на некоторых macOS — VM issues; prod inference только Metal/CUDA.
  4. Model weights: q2/q4 GGUF по docs (десятки–сотни GB), checksum verify; SSD path с headroom под disk KV и logs.
  5. Service и smoke: ./ds4 -p "Hello" --metal; затем ./ds4-server, curl OpenAI-compatible — prefill/generation vs README benchmark band.
  6. IDE / agent toolchain: Cursor Base URL на instance или SSH tunnel к ds4-server; real repo refactor с tool calling и KV reuse; потом решение extend lease.
ds4-smoke.sh
Memory и Metal preflight
sysctl hw.memsize
./ds4 -p "Summarize KV cache design in one sentence." --metal

OpenAI-compatible local service
./ds4-server --metal
curl -s http://127.0.0.1:PORT/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"deepseek-v4-flash","messages":[{"role":"user","content":"ping"}]}'

05 Citeable data: official benchmark и model specs

Для internal eval или budget request — с источником (public table antirez/ds4, test conditions в README):

  • Model spec: DeepSeek V4 Flash 284B MoE, ~13B active; ds4 hardcodes quant и graph fusion — не portable на random GGUF.
  • MacBook Pro M3 Max (128 ГБ) · q2 · short prompt: prefill ~58,52 t/s, generation ~26,68 t/s.
  • M3 Max (128 ГБ) · q2 · long prompt (~11,7k tokens): prefill ~250,11 t/s, generation ~21,47 t/s.
  • Mac Studio M3 Ultra (512 ГБ) · q2 · long prompt: prefill ~468,03 t/s, generation ~27,39 t/s; q4 long prefill ~448,82 t/s, generation ~26,62 t/s.
  • DGX Spark GB10 (128 ГБ) · CUDA · q2: long prefill ~343,81 t/s, generation ~13,75 t/s — non-Mac path viable, gen bandwidth-limited.

Community M5 Max numbers (prefill ~463 t/s) — trend signal; для external docs stick to repo table + footnote test date и quant version.

06 Аренда vs покупка: когда JEXCLOUD high-memory bare-metal держит ds4

ds4 доказал: consumer Mac с fat unified memory уже тянет local inference класса DeepSeek V4. Реальный blocker — hardware CAPEX и setup time, не «не умеем писать на C».

Top-spec Mac Studio still fits «always-on dedicated core R&D». Для большинства три workaround ломаются: ① generic 16 GB cloud VM — q2 weights не грузятся; ② home Mac mini — upload и соседи убивают multi-GB pulls и long inference; ③ только public API — token burn и compliance ceiling на long agent runs.

Production path: on-demand JEXCLOUD multi-region bare-metal Mac 128 ГБ / 512 ГБ, build chain и storage, inference done — release или downgrade — exclusive Apple Silicon, no virt oversell, data на вашей instance без third-party API. Shared high-memory node для eval и agent pilot дешевле N× Ultra purchase. Specs и pricing: JEXCLOUD pricing; SSH deploy: help center.