Cloud Mac ds4 2026.05.26

2026 antirez ds4 lokal mit DeepSeek V4: 96GB-Schwelle, Metal-Performance und Cloud-Mac-Hochspeicher-Miete

Redis-Autor Salvatore Sanfilippo (antirez) hat kürzlich ds4 (DwarfStar 4) open-sourced — eine in reinem C geschriebene Inferenz-Engine nur für DeepSeek V4 Flash, die ein 284B-Parameter-MoE erstmals praktisch auf Consumer-Apple-Silicon-Macs bringt. Innerhalb weniger Tage überschritt das GitHub-Repo 10.000 Stars.

Nach diesem Artikel beantworten Sie drei Fragen mit harten Zahlen. Erstens: wie ds4 sich von llama.cpp / Ollama / MLX unterscheidet. Zweitens: welche Unified Memory für Flash / PRO nötig ist und welche Benchmarks das antirez/ds4-README liefert. Drittens: warum bei Mac-Studio-CAPEX im sechsstelligen Bereich On-Demand-Miete eines Hochspeicher-Bare-Metal-Macs (JEXCLOUD Multi-Region) der realistischere Einstieg ist — inklusive Sechs-Schritte-Checkliste.

01 Was ist ds4: Ein-Modell-Fokus und der Star-Anstieg 2026

Die meisten lokalen Inferenz-Tools folgen dem Universal-Ansatz: llama.cpp lädt Dutzende Architekturen, Ollama kapselt das in eine CLI, MLX konvertiert für Apple. ds4 dreht das um — nur DeepSeek V4 Flash, README-Formulierung „intentionally narrow": kein GGUF-Universal-Loader, sondern ein self-contained Metal-/CUDA-Graphexecutor mit DS4-spezifischem Loading, Prompt-Rendering, Tool Calling, KV-State (RAM und Disk), ds4-server-API und eingebautem Coding-Agent.

antirez berichtet, er habe in etwa einer Woche Intensiventwicklung geprüft, ob lokale Modelle tägliche Claude-/GPT-Aufrufe ersetzen können. Der Engpass liegt nicht in der Abstraktionsschicht, sondern darin, ob ein frontier-nah offenes Modell in einen Hochspeicher-Rechner passt. DeepSeek V4 Flash: 284B gesamt / ~13B aktiv (MoE); ds4s asymmetrische 2/8-bit-Quantisierung plus Disk-KV macht „Offline-Coding-Agent auf dem Mac" vom Demo zum Alltagstool.

  • Zielhardware klar definiert: Metal primär für macOS, ab 96 GB Unified Memory (MacBook Pro / Mac Studio); parallel CUDA auf Linux (DGX Spark u. a.).
  • Schnelle Community-Validierung: Drittanbieter-Tests auf 128 GB MacBook, 18 reale Tasks (langer Kontext, Tool Calling, Agent-Loop) — Ergebnis: spezialisierte Engine + dediziertes GGUF bringt großes MoE erstmals in akzeptable Latenz.
  • Ergänzung zu Cloud-API: ds4 für festes Modell, Datenschutz, Offline; volle Präzision oder Team-Endpoint weiterhin über API — keine binäre Entscheidung.

Kurz: ds4 tauscht „nur eine Sache" gegen „DeepSeek V4 Flash auf dem Mac nutzbar" — Hype aus Machbarkeit plus antirez-Backing.

02 ds4-Technik und Entscheidungsmatrix gegen universelle Inferenz

Vor der Investition trennen: „Modelle wechseln zum Experimentieren" vs. „DeepSeek V4 Flash als Produktivitäts-Stack". Die Matrix unten aligniert Erwartungen im Team.

ds4 vs universelle lokale Inferenz vs Cloud-API (2026)
Dimension ds4 (DwarfStar 4) llama.cpp / Ollama / MLX Cloud-API (Claude / GPT u. a.)
Modellumfang Nur DeepSeek V4 Flash (PRO-Pfad in Entwicklung) Multi-Architektur, wöchentliche Updates Hersteller-Portfolio, teils closed
Hardware-Fokus 96 GB+ Unified Memory Mac; CUDA-Workstation Modellabhängig; kleine Modelle ab 16 GB Keine lokale Hardware, Token-Abrechnung
Differenzierung Disk-KV, Millionen-Kontext-Design, natives Tool Calling, ds4-server OpenAI/Anthropic-kompatibel Ökosystem-Plugins, viele Quantisierungen Volle Qualität, Multimodal, Enterprise-SLA
Datenschutz / Offline Gewichte und Inferenz auf eigener Maschine / Instanz Gleich, aber große Modelle brauchen RAM Drittanbieter, Netzabhängigkeit
Typische Pain Points Hoher Einstieg (RAM + Download + Build); ein Modell Große MoE oft unbenutzbar langsam Langfristige Token-Kosten, Rate Limits

Vier technische Hebel, die die Mac-Diskussion erklären:

  • Metal-Graphexecutor: Operator-Fusion für V4 Flash, nicht generischer Graph-Traversal; README-Benchmark M3 Ultra 512 GB: langer Prompt prefill im Bereich hunderter t/s (antirez/ds4).
  • Asymmetrische Quantisierung: Routing-Experten aggressiver 2-bit, übrige Layer höher — Flash auf 128 GB lauffähig; q4-Pfad auf 512 GB Mac Studio dokumentiert.
  • Disk-KV-Cache: Session-KV auf SSD, Kontext über Neustarts — kritisch für Repo-Level-Agent-Tasks.
  • Eingebauter Coding-Agent: CLI und ds4-server gegen Cursor, opencode getestet — weniger Glue-Code für IDE-Anbindung.

Warum Mac im Consumer-Segment? Apple Silicon UMA: CPU/GPU teilen einen großen Speicherpool mit hoher Bandbreite. Cloud-GPU mit 80 GB VRAM-Deckel lädt q2-284B oft nicht vollständig; selbst bei Passung leidet MoE-Routing unter Bandbreite. Community-CUDA auf RTX PRO 6000 96 GB (~43 tok/s kurze Generation) zeigt: CUDA geht, aber 128 GB Mac + Metal bleibt dokumentiertes Hauptfeld.

03 DeepSeek V4 lokal: 96GB-Schwelle und Hardware-CAPEX-Matrix

Unabhängig von der Engine: GB Unified Memory sind der erste Filter. Matrix aus Repository und Community (Kaufpreise 2026, Schätzung EU-Markt; Kanalpreise variieren).

DeepSeek V4 + ds4: typische Hardware-Schwellen und CAPEX
Modell / Quantisierung Min. Unified Memory Typische Hardware CAPEX (Referenz)
V4 Flash (q2) 96 GB MacBook Pro M3/M4/M5 Max ab ca. 4.000 €
V4 Flash (q4) 256 GB Mac Studio Ultra ab ca. 8.000 €
V4 PRO (q2) 512 GB Mac Studio M3 Ultra (Top) ab ca. 14.000 €

Drei wiederkehrende Blocker:

  • CAPEX: Solo-Dev und Teams ≤5 Personen schwer für „Frontier lokal testen" ein Ultra budgetieren.
  • Auslastung: Inferenz pulsiert (Release-Woche hoch, sonst idle) — schnelle Abschreibung.
  • Setup-Zeit: ds4 bauen, hundert GB GGUF ziehen, Metal und ds4-server debuggen — oft vergleichbar mit Hardwarekosten.

Wechselt das Ziel von „Mac besitzen" zu „ds4-Agent in definierter Woche lauffähig", wird On-Demand-Miete 128 GB / 512 GB Bare-Metal-Mac OPEX statt Asset. Mietdauer-Matrix: Cloud-Mac-Projektmiete; hier Fokus Hochspeicher-Inferenz.

04 ds4 auf Cloud-Mac mit Hochspeicher: Sechs-Schritte-Checkliste

Annahme: Bare-Metal-Mac über Bestellseite (empfohlen ab 128 GB), Login per SSH/VNC. Mit lokalem 96 GB+ physischen Mac: gleiche Schritte, Miete weglassen.

  1. Task und Quantisierung: Flash q2 (128 GB komfortabler) vs. q4/PRO; Team-Alignment „Offline-Agent" vs. CLI-Probe — vermeidet Mid-Rental-SKU-Wechsel.
  2. Node provisionieren und abnehmen: Hochspeicher-SKU (z. B. M4 Max 128 GB oder Studio 512 GB), SSH-Key; sysctl hw.memsize und system_profiler SPDisplaysDataType für RAM und Metal.
  3. ds4 und Dependencies: git clone https://github.com/antirez/ds4.git, make für Metal; README warnt: CPU-only auf manchen macOS-Versionen VM-Probleme — Produktion nur Metal/CUDA.
  4. Modellgewichte: q2/q4 GGUF laut Doku (Dutzende bis hundert GB), Checksum; SSD-Pfad mit Reserve für Disk-KV und Logs.
  5. Service und Smoke-Test: ./ds4 -p "Hello" --metal; dann ./ds4-server, curl OpenAI-kompatibel — prefill/generation gegen README-Benchmark.
  6. IDE / Agent-Toolchain: Cursor Base URL auf Instanz oder SSH-Tunnel zu ds4-server; echte Repo-Refactor-Task mit Tool Calling und KV-Reuse; danach Mietverlängerung entscheiden.
ds4-smoke.sh
Speicher- und Metal-Vorprüfung
sysctl hw.memsize
./ds4 -p "Summarize KV cache design in one sentence." --metal

OpenAI-kompatibler lokaler Dienst
./ds4-server --metal
curl -s http://127.0.0.1:PORT/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"deepseek-v4-flash","messages":[{"role":"user","content":"ping"}]}'

05 Zitierbare Daten: offizielle Benchmarks und Modellspecs

Für interne Reports und Budget-Anträge — mit Quelle (antirez/ds4 README, Testbedingungen dort):

  • Modellspec: DeepSeek V4 Flash 284B MoE, ~13B aktiv; ds4 hardcodiert Quantisierung/Graph — nicht auf andere GGUF übertragbar.
  • MacBook Pro M3 Max (128 GB) · q2 · kurzer Prompt: prefill ~58,52 t/s, generation ~26,68 t/s.
  • M3 Max (128 GB) · q2 · langer Prompt (~11,7k tokens): prefill ~250,11 t/s, generation ~21,47 t/s.
  • Mac Studio M3 Ultra (512 GB) · q2 · langer Prompt: prefill ~468,03 t/s, generation ~27,39 t/s; q4 langer Prompt prefill ~448,82 t/s, generation ~26,62 t/s.
  • DGX Spark GB10 (128 GB) · CUDA · q2: langer Prompt prefill ~343,81 t/s, generation ~13,75 t/s — CUDA nutzbar, Generation bandbreitenlimitiert.

Community-M5-Max-Werte (z. B. prefill ~463 t/s) als Trend; externe Materialien: Repository-Tabelle plus Testdatum und Quantisierungsversion in Fußnote.

06 Miete vs Kauf: wann JEXCLOUD Hochspeicher-Bare-Metal ds4 trägt

ds4 beweist technisch: Consumer-Hochspeicher-Mac kann DeepSeek-V4-Klasse lokal inferieren. Der Engpass ist CAPEX und Setup-Zeit, nicht fehlendes C.

Kauf eines Mac Studio Ultra passt bei ganzjährig dedizierter Kern-R&D-Rolle. Für die Mehrheit scheitern Alternativen messbar: ① 16 GB Cloud-VM — q2-Gewichte passen nicht; ② Heim-Mac-mini — Upload und Nachbarschaft belasten Multi-GB-Downloads; ③ nur Public-API — Agent-Token und Compliance-Deckel.

Produktionspfad: JEXCLOUD Multi-Region Bare-Metal-Mac On-Demand 128 GB / 512 GB, Build-Chain und Speicher, Inferenz danach freigeben oder downgraden — exklusives Apple Silicon, kein Overselling, Daten auf Ihrer Instanz ohne Drittanbieter-API. Ein geteilter Hochspeicher-Knoten für Evaluierung schlägt N× Ultra-Kauf. Specs und Preise: JEXCLOUD-Preisseite; SSH-Deploy: Hilfezentrum.