Mac cloud ds4 2026.05.26

2026 : ds4 d'antirez et DeepSeek V4 en local — seuil 96 Go, performances Metal et location Mac cloud haute mémoire

L'auteur de Redis, Salvatore Sanfilippo (antirez), vient de publier en open source ds4 (DwarfStar 4) : un moteur d'inférence en C pur, dédié à DeepSeek V4 Flash, qui place pour la première fois un MoE de 284 milliards de paramètres dans une utilisation quotidienne sur un Mac Apple Silicon grand public. En quelques jours, le dépôt a dépassé 10 000 étoiles sur GitHub — un engouement comparable à celui de Redis à sa sortie.

À la fin de cet article, vous saurez répondre à trois questions. D'abord, en quoi ds4 diffère fondamentalement de llama.cpp, Ollama ou MLX. Ensuite, quelle mémoire unifiée exige Flash ou PRO, et quels ordres de grandeur les benchmarks officiels du dépôt antirez/ds4 indiquent. Enfin, pourquoi, face à un Mac Studio neuf qui se chiffre en dizaines de milliers d'euros, la location à la demande d'un Mac bare-metal haute mémoire (nœuds JEXCLOUD multi-régions) constitue l'entrée la plus réaliste — avec une checklist en six étapes.

01 Qu'est-ce que ds4 : un moteur mono-modèle qui explose en 2026

La plupart des outils locaux empruntent la voie « universelle » : llama.cpp charge des centaines d'architectures, Ollama enrobe une CLI conviviale, MLX convertit pour l'écosystème Apple. ds4 inverse la logique — une seule ligne de produit, DeepSeek V4 Flash, avec un README qui assume « intentionally narrow » : ce n'est ni un chargeur GGUF générique ni un runtime interchangeable, mais un exécuteur de graphe Metal/CUDA autonome, livré avec chargement DS4, rendu de prompts, tool calling, état KV (mémoire et disque), API ds4-server et agent de codage intégré.

Dans ses échanges publics, antirez explique avoir consacré environ une semaine de développement intensif à vérifier si un modèle local pouvait remplacer ses appels quotidiens à Claude ou GPT. Le récit qui porte l'engouement est simple : le goulot n'est plus la couche d'abstraction, mais l'existence d'un poids ouvert assez proche de la frontière pour tenir dans une machine très dotée en RAM. DeepSeek V4 Flash — 284B total, ~13B activés en MoE — combiné à la quantification asymétrique 2/8 bits de ds4 et au KV sur disque transforme « agent de codage offline sur Mac » d'une démo en option crédible au quotidien.

  • Matériel cible explicite : Metal en priorité sur macOS, dès 96 Go de mémoire unifiée (MacBook Pro / Mac Studio) ; CUDA en parallèle sur Linux (DGX Spark, etc.).
  • Validation communautaire rapide : des évaluations tierces sur MacBook 128 Go couvrent 18 tâches réelles — long contexte, tool calling, boucles agent — et concluent qu'un moteur spécialisé plus un GGUF dédié ramènent enfin un très grand MoE à une latence acceptable.
  • Complémentarité avec l'API cloud : ds4 convient au modèle fixe, à la confidentialité et au mode hors ligne ; la précision maximale ou un endpoint d'équipe restent du ressort de l'API — le choix n'est pas binaire.

En une phrase : ds4 échange « ne faire qu'une chose » contre « rendre DeepSeek V4 Flash utilisable sur Mac » — la popularité vient de la faisabilité technique et du crédit personnel d'antirez.

02 Points techniques de ds4 et matrice face à l'inférence générique

Avant d'investir, séparez « je veux changer de modèle pour expérimenter » et « je veux DeepSeek V4 Flash comme outil de production ». Le tableau ci-dessous aligne les attentes au sein de l'équipe.

ds4 vs inférence locale générique vs API cloud (2026)
Dimension ds4 (DwarfStar 4) llama.cpp / Ollama / MLX API cloud (Claude / GPT, etc.)
Périmètre modèle DeepSeek V4 Flash uniquement (voie PRO en évolution) Multi-architecture, mises à jour hebdomadaires Portefeuille éditeur, souvent fermé
Matériel privilégié Mac 96 Go+ mémoire unifiée ; station CUDA Selon modèle ; petits modèles dès 16 Go Pas de matériel local, facturation au token
Différenciation KV disque, conception million de tokens, tool calling natif, ds4-server compatible OpenAI/Anthropic Plugins, quantifications communautaires Qualité maximale, multimodal, SLA entreprise
Confidentialité / offline Poids et inférence sur machine ou instance dédiée Idem, mais grands modèles exigent la RAM Données chez un tiers, réseau requis
Points de friction Coût d'entrée (RAM, téléchargement, compilation) ; un seul modèle Très grands MoE souvent inutilisables ou lents Coût token long terme, conformité, limites de débit

Quatre choix techniques expliquent pourquoi le débat Mac revient sans cesse :

  • Exécuteur de graphe Metal : fusion d'opérateurs pour V4 Flash, pas un parcours générique ; le README cite sur M3 Ultra 512 Go un prefill de long prompt dans la fourchette des centaines de t/s (antirez/ds4).
  • Quantification asymétrique : experts de routage en 2 bits agressif, autres couches plus fines — Flash viable sur 128 Go ; chemin q4 documenté sur Mac Studio 512 Go.
  • Cache KV sur disque : sessions persistées sur SSD rapide, contexte conservé après redémarrage — décisif pour les agents au niveau dépôt.
  • Agent de codage intégré : CLI et ds4-server testés avec Cursor, opencode — moins de code glue vers l'IDE.

Pourquoi le Mac en contexte grand public ? L'architecture mémoire unifiée (UMA) d'Apple Silicon partage un grand pool mémoire CPU/GPU à bande passante élevée. Une instance GPU cloud plafonnée à 80 Go de VRAM charge rarement un q2 de 284B en entier ; même chargé, le routage MoE souffre. Un essai communautaire CUDA sur RTX PRO 6000 96 Go (~43 tok/s en génération courte) montre que CUDA est viable, mais 128 Go Mac + Metal reste le terrain documenté par la communauté.

03 DeepSeek V4 en local : seuil 96 Go et matrice d'achat matériel

Quelle que soit la qualité du moteur, le volume de mémoire unifiée filtre en premier. Le tableau synthétise le dépôt et retours de déploiement (prix d'achat indicatifs marché UE 2026 ; vérifier les canaux).

DeepSeek V4 + ds4 : seuils matériels et coût d'acquisition
Modèle / quantification Mémoire unifiée min. Matériel typique Coût d'acquisition (réf.)
V4 Flash (q2) 96 Go MacBook Pro M3/M4/M5 Max à partir d'environ 4 000 €
V4 Flash (q4) 256 Go Mac Studio Ultra à partir d'environ 8 000 €
V4 PRO (q2) 512 Go Mac Studio M3 Ultra (haut de gamme) à partir d'environ 14 000 €

Trois frictions reviennent systématiquement :

  • CAPEX initial : un développeur seul ou une équipe de cinq peine à budgétiser un Ultra pour « tester la frontière en local ».
  • Utilisation irrégulière : la charge d'inférence est souvent pulsée (semaines de release ou d'exploration, puis silence) — amortissement rapide d'une machine dédiée.
  • Coût de mise en place : compiler ds4, télécharger des centaines de Go de GGUF, régler Metal et ds4-server — un investissement temps comparable au matériel.

Lorsque l'objectif devient « faire tourner un agent ds4 dans un créneau défini » plutôt que « posséder un Mac », la location à la demande d'un Mac bare-metal 128 Go / 512 Go transforme un actif en charge d'exploitation. Pour les combinaisons jour/semaine/mois, voir matrice de coût Mac cloud par projet ; ici, focus inférence haute mémoire.

04 Exécuter ds4 sur Mac cloud haute mémoire : checklist en six étapes

Ce parcours suppose un Mac bare-metal JEXCLOUD ouvert via la page de commande (128 Go recommandés minimum), accès SSH ou VNC. Sur une machine physique locale 96 Go+, les étapes sont identiques sans la phase de location.

  1. Tâche et quantification : Flash q2 (128 Go plus confortable) ou q4/PRO ; aligner l'équipe sur « agent offline » vs « essai CLI » — évite un changement de SKU en cours de bail.
  2. Provisionner et valider le nœud : SKU haute mémoire (ex. M4 Max 128 Go ou Studio 512 Go), clé SSH ; sysctl hw.memsize et system_profiler SPDisplaysDataType pour RAM et Metal.
  3. Récupérer ds4 et dépendances : git clone https://github.com/antirez/ds4.git, make pour Metal ; le README signale des problèmes CPU-only sur certaines versions macOS — inférence de production via Metal ou CUDA uniquement.
  4. Poids du modèle : télécharger q2/q4 GGUF selon la doc (dizaines à centaines de Go), vérifier checksum ; placer sur SSD avec marge pour KV disque et journaux.
  5. Service et test de fumée : ./ds4 -p "Hello" --metal ; puis ./ds4-server, curl au format OpenAI — comparer prefill/génération aux benchmarks README.
  6. Chaîne IDE / agent : dans Cursor, pointer Base URL vers l'instance ou un tunnel SSH vers ds4-server ; lancer un refactor réel avec tool calling et réutilisation KV ; décider ensuite de prolonger la location.
ds4-smoke.sh
Contrôle mémoire et Metal
sysctl hw.memsize
./ds4 -p "Summarize KV cache design in one sentence." --metal

Service local compatible OpenAI
./ds4-server --metal
curl -s http://127.0.0.1:PORT/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"deepseek-v4-flash","messages":[{"role":"user","content":"ping"}]}'

05 Données citables : benchmarks officiels et spécifications modèle

Pour un rapport interne ou une demande de budget, citez les points avec source (tableau public du dépôt antirez/ds4, conditions dans le README) :

  • Spécification : DeepSeek V4 Flash, MoE 284B, ~13B activés ; ds4 code en dur quantification et fusion de graphe — non transférable à d'autres GGUF.
  • MacBook Pro M3 Max (128 Go) · q2 · prompt court : prefill ~58,52 t/s, génération ~26,68 t/s.
  • M3 Max (128 Go) · q2 · long prompt (~11,7k tokens) : prefill ~250,11 t/s, génération ~21,47 t/s.
  • Mac Studio M3 Ultra (512 Go) · q2 · long prompt : prefill ~468,03 t/s, génération ~27,39 t/s ; q4 long prompt prefill ~448,82 t/s, génération ~26,62 t/s.
  • DGX Spark GB10 (128 Go) · CUDA · q2 : long prompt prefill ~343,81 t/s, génération ~13,75 t/s — chemin non-Mac utilisable, génération limitée par la bande passante.

Les mesures communautaires sur M5 Max (prefill ~463 t/s) servent de tendance ; pour un support externe, privilégiez le tableau du dépôt avec date de test et version de quantification en note de bas de page.

06 Location ou achat : quand confier ds4 à JEXCLOUD haute mémoire

antirez a démontré avec ds4 qu'un Mac grand public très doté en mémoire peut porter une inférence locale de classe DeepSeek V4. L'obstacle réel reste le CAPEX matériel et le temps de mise en route, non l'absence de compétence en C.

L'achat d'un Mac Studio haut de gamme convient encore à un poste R&D dédié toute l'année. Pour la majorité des équipes, trois contournements échouent : un cloud générique 16 Go ne charge pas les poids q2 ; un Mac mini domestique subit bande passante montante et voisinage sur des téléchargements de centaines de Go ; une API publique seule laisse une facture token et des contraintes de conformité sur les agents longue durée.

La voie la plus sûre : sur JEXCLOUD Mac bare-metal multi-régions, ouvrir à la demande une instance 128 Go / 512 Go avec chaîne de compilation et espace disque, exécuter l'inférence ds4 puis libérer ou réduire la configuration — Apple Silicon exclusif, sans survente de virtualisation, données sur votre instance sans passer par une API tierce. Un nœud haute mémoire partagé pour évaluation et pilote d'agent coûte bien moins que N achats Ultra. Spécifications et tarifs : page tarifs JEXCLOUD ; déploiement SSH : centre d'aide.