2026 antirez ds4 lokal mit DeepSeek V4: 96GB-Schwelle, Metal-Performance und Cloud-Mac-Hochspeicher-Miete
Redis-Autor Salvatore Sanfilippo (antirez) hat kürzlich ds4 (DwarfStar 4) open-sourced — eine in reinem C geschriebene Inferenz-Engine nur für DeepSeek V4 Flash, die ein 284B-Parameter-MoE erstmals praktisch auf Consumer-Apple-Silicon-Macs bringt. Innerhalb weniger Tage überschritt das GitHub-Repo 10.000 Stars.
Nach diesem Artikel beantworten Sie drei Fragen mit harten Zahlen. Erstens: wie ds4 sich von llama.cpp / Ollama / MLX unterscheidet. Zweitens: welche Unified Memory für Flash / PRO nötig ist und welche Benchmarks das antirez/ds4-README liefert. Drittens: warum bei Mac-Studio-CAPEX im sechsstelligen Bereich On-Demand-Miete eines Hochspeicher-Bare-Metal-Macs (JEXCLOUD Multi-Region) der realistischere Einstieg ist — inklusive Sechs-Schritte-Checkliste.
01 Was ist ds4: Ein-Modell-Fokus und der Star-Anstieg 2026
Die meisten lokalen Inferenz-Tools folgen dem Universal-Ansatz: llama.cpp lädt Dutzende Architekturen, Ollama kapselt das in eine CLI, MLX konvertiert für Apple. ds4 dreht das um — nur DeepSeek V4 Flash, README-Formulierung „intentionally narrow": kein GGUF-Universal-Loader, sondern ein self-contained Metal-/CUDA-Graphexecutor mit DS4-spezifischem Loading, Prompt-Rendering, Tool Calling, KV-State (RAM und Disk), ds4-server-API und eingebautem Coding-Agent.
antirez berichtet, er habe in etwa einer Woche Intensiventwicklung geprüft, ob lokale Modelle tägliche Claude-/GPT-Aufrufe ersetzen können. Der Engpass liegt nicht in der Abstraktionsschicht, sondern darin, ob ein frontier-nah offenes Modell in einen Hochspeicher-Rechner passt. DeepSeek V4 Flash: 284B gesamt / ~13B aktiv (MoE); ds4s asymmetrische 2/8-bit-Quantisierung plus Disk-KV macht „Offline-Coding-Agent auf dem Mac" vom Demo zum Alltagstool.
- Zielhardware klar definiert: Metal primär für macOS, ab 96 GB Unified Memory (MacBook Pro / Mac Studio); parallel CUDA auf Linux (DGX Spark u. a.).
- Schnelle Community-Validierung: Drittanbieter-Tests auf 128 GB MacBook, 18 reale Tasks (langer Kontext, Tool Calling, Agent-Loop) — Ergebnis: spezialisierte Engine + dediziertes GGUF bringt großes MoE erstmals in akzeptable Latenz.
- Ergänzung zu Cloud-API: ds4 für festes Modell, Datenschutz, Offline; volle Präzision oder Team-Endpoint weiterhin über API — keine binäre Entscheidung.
Kurz: ds4 tauscht „nur eine Sache" gegen „DeepSeek V4 Flash auf dem Mac nutzbar" — Hype aus Machbarkeit plus antirez-Backing.
02 ds4-Technik und Entscheidungsmatrix gegen universelle Inferenz
Vor der Investition trennen: „Modelle wechseln zum Experimentieren" vs. „DeepSeek V4 Flash als Produktivitäts-Stack". Die Matrix unten aligniert Erwartungen im Team.
| Dimension | ds4 (DwarfStar 4) | llama.cpp / Ollama / MLX | Cloud-API (Claude / GPT u. a.) |
|---|---|---|---|
| Modellumfang | Nur DeepSeek V4 Flash (PRO-Pfad in Entwicklung) | Multi-Architektur, wöchentliche Updates | Hersteller-Portfolio, teils closed |
| Hardware-Fokus | 96 GB+ Unified Memory Mac; CUDA-Workstation | Modellabhängig; kleine Modelle ab 16 GB | Keine lokale Hardware, Token-Abrechnung |
| Differenzierung | Disk-KV, Millionen-Kontext-Design, natives Tool Calling, ds4-server OpenAI/Anthropic-kompatibel |
Ökosystem-Plugins, viele Quantisierungen | Volle Qualität, Multimodal, Enterprise-SLA |
| Datenschutz / Offline | Gewichte und Inferenz auf eigener Maschine / Instanz | Gleich, aber große Modelle brauchen RAM | Drittanbieter, Netzabhängigkeit |
| Typische Pain Points | Hoher Einstieg (RAM + Download + Build); ein Modell | Große MoE oft unbenutzbar langsam | Langfristige Token-Kosten, Rate Limits |
Vier technische Hebel, die die Mac-Diskussion erklären:
- Metal-Graphexecutor: Operator-Fusion für V4 Flash, nicht generischer Graph-Traversal; README-Benchmark M3 Ultra 512 GB: langer Prompt prefill im Bereich hunderter t/s (antirez/ds4).
- Asymmetrische Quantisierung: Routing-Experten aggressiver 2-bit, übrige Layer höher — Flash auf 128 GB lauffähig; q4-Pfad auf 512 GB Mac Studio dokumentiert.
- Disk-KV-Cache: Session-KV auf SSD, Kontext über Neustarts — kritisch für Repo-Level-Agent-Tasks.
- Eingebauter Coding-Agent: CLI und
ds4-servergegen Cursor, opencode getestet — weniger Glue-Code für IDE-Anbindung.
Warum Mac im Consumer-Segment? Apple Silicon UMA: CPU/GPU teilen einen großen Speicherpool mit hoher Bandbreite. Cloud-GPU mit 80 GB VRAM-Deckel lädt q2-284B oft nicht vollständig; selbst bei Passung leidet MoE-Routing unter Bandbreite. Community-CUDA auf RTX PRO 6000 96 GB (~43 tok/s kurze Generation) zeigt: CUDA geht, aber 128 GB Mac + Metal bleibt dokumentiertes Hauptfeld.
03 DeepSeek V4 lokal: 96GB-Schwelle und Hardware-CAPEX-Matrix
Unabhängig von der Engine: GB Unified Memory sind der erste Filter. Matrix aus Repository und Community (Kaufpreise 2026, Schätzung EU-Markt; Kanalpreise variieren).
| Modell / Quantisierung | Min. Unified Memory | Typische Hardware | CAPEX (Referenz) |
|---|---|---|---|
| V4 Flash (q2) | 96 GB | MacBook Pro M3/M4/M5 Max | ab ca. 4.000 € |
| V4 Flash (q4) | 256 GB | Mac Studio Ultra | ab ca. 8.000 € |
| V4 PRO (q2) | 512 GB | Mac Studio M3 Ultra (Top) | ab ca. 14.000 € |
Drei wiederkehrende Blocker:
- CAPEX: Solo-Dev und Teams ≤5 Personen schwer für „Frontier lokal testen" ein Ultra budgetieren.
- Auslastung: Inferenz pulsiert (Release-Woche hoch, sonst idle) — schnelle Abschreibung.
- Setup-Zeit: ds4 bauen, hundert GB GGUF ziehen, Metal und
ds4-serverdebuggen — oft vergleichbar mit Hardwarekosten.
Wechselt das Ziel von „Mac besitzen" zu „ds4-Agent in definierter Woche lauffähig", wird On-Demand-Miete 128 GB / 512 GB Bare-Metal-Mac OPEX statt Asset. Mietdauer-Matrix: Cloud-Mac-Projektmiete; hier Fokus Hochspeicher-Inferenz.
04 ds4 auf Cloud-Mac mit Hochspeicher: Sechs-Schritte-Checkliste
Annahme: Bare-Metal-Mac über Bestellseite (empfohlen ab 128 GB), Login per SSH/VNC. Mit lokalem 96 GB+ physischen Mac: gleiche Schritte, Miete weglassen.
- Task und Quantisierung: Flash q2 (128 GB komfortabler) vs. q4/PRO; Team-Alignment „Offline-Agent" vs. CLI-Probe — vermeidet Mid-Rental-SKU-Wechsel.
- Node provisionieren und abnehmen: Hochspeicher-SKU (z. B. M4 Max 128 GB oder Studio 512 GB), SSH-Key;
sysctl hw.memsizeundsystem_profiler SPDisplaysDataTypefür RAM und Metal. - ds4 und Dependencies:
git clone https://github.com/antirez/ds4.git,makefür Metal; README warnt: CPU-only auf manchen macOS-Versionen VM-Probleme — Produktion nur Metal/CUDA. - Modellgewichte: q2/q4 GGUF laut Doku (Dutzende bis hundert GB), Checksum; SSD-Pfad mit Reserve für Disk-KV und Logs.
- Service und Smoke-Test:
./ds4 -p "Hello" --metal; dann./ds4-server, curl OpenAI-kompatibel — prefill/generation gegen README-Benchmark. - IDE / Agent-Toolchain: Cursor Base URL auf Instanz oder SSH-Tunnel zu
ds4-server; echte Repo-Refactor-Task mit Tool Calling und KV-Reuse; danach Mietverlängerung entscheiden.
Speicher- und Metal-Vorprüfung
sysctl hw.memsize
./ds4 -p "Summarize KV cache design in one sentence." --metal
OpenAI-kompatibler lokaler Dienst
./ds4-server --metal
curl -s http://127.0.0.1:PORT/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model":"deepseek-v4-flash","messages":[{"role":"user","content":"ping"}]}'
05 Zitierbare Daten: offizielle Benchmarks und Modellspecs
Für interne Reports und Budget-Anträge — mit Quelle (antirez/ds4 README, Testbedingungen dort):
- Modellspec: DeepSeek V4 Flash 284B MoE, ~13B aktiv; ds4 hardcodiert Quantisierung/Graph — nicht auf andere GGUF übertragbar.
- MacBook Pro M3 Max (128 GB) · q2 · kurzer Prompt: prefill ~58,52 t/s, generation ~26,68 t/s.
- M3 Max (128 GB) · q2 · langer Prompt (~11,7k tokens): prefill ~250,11 t/s, generation ~21,47 t/s.
- Mac Studio M3 Ultra (512 GB) · q2 · langer Prompt: prefill ~468,03 t/s, generation ~27,39 t/s; q4 langer Prompt prefill ~448,82 t/s, generation ~26,62 t/s.
- DGX Spark GB10 (128 GB) · CUDA · q2: langer Prompt prefill ~343,81 t/s, generation ~13,75 t/s — CUDA nutzbar, Generation bandbreitenlimitiert.
Community-M5-Max-Werte (z. B. prefill ~463 t/s) als Trend; externe Materialien: Repository-Tabelle plus Testdatum und Quantisierungsversion in Fußnote.
06 Miete vs Kauf: wann JEXCLOUD Hochspeicher-Bare-Metal ds4 trägt
ds4 beweist technisch: Consumer-Hochspeicher-Mac kann DeepSeek-V4-Klasse lokal inferieren. Der Engpass ist CAPEX und Setup-Zeit, nicht fehlendes C.
Kauf eines Mac Studio Ultra passt bei ganzjährig dedizierter Kern-R&D-Rolle. Für die Mehrheit scheitern Alternativen messbar: ① 16 GB Cloud-VM — q2-Gewichte passen nicht; ② Heim-Mac-mini — Upload und Nachbarschaft belasten Multi-GB-Downloads; ③ nur Public-API — Agent-Token und Compliance-Deckel.
Produktionspfad: JEXCLOUD Multi-Region Bare-Metal-Mac On-Demand 128 GB / 512 GB, Build-Chain und Speicher, Inferenz danach freigeben oder downgraden — exklusives Apple Silicon, kein Overselling, Daten auf Ihrer Instanz ohne Drittanbieter-API. Ein geteilter Hochspeicher-Knoten für Evaluierung schlägt N× Ultra-Kauf. Specs und Preise: JEXCLOUD-Preisseite; SSH-Deploy: Hilfezentrum.