AI Agent GPT-5.6 2026.06.27

GPT-5.6 Sol, Terra et Luna : benchmarks, tarifs et guide d'accès (2026)

Le 26 juin 2026, OpenAI a officiellement lancé la famille GPT-5.6 en trois modèles : Sol (Soleil), Terra (Terre) et Luna (Lune). Le flagship Sol atteint 91,9 % sur TerminalBench 2.1 et a détrôné Claude Mythos 5 après seulement 17 jours en tête du classement. L'accès est actuellement limité à environ 20 partenaires approuvés, suite à un examen de sécurité demandé par le gouvernement américain.

Cet article s'adresse aux ingénieurs IA, développeurs d'agents et décideurs techniques. Il couvre : ① le système de nommage solaire et l'intervention gouvernementale ; ② tarifs, modes Max/Ultra et benchmarks complets ; ③ comparaison avec Mythos 5, Cerebras 750 token/s en juillet, prédiction Polymarket à 87 %, stratégie en 6 étapes. Données au 27 juin 2026.

01 Contexte de lancement et examen gouvernemental

OpenAI introduit pour la première fois une nomenclature inspirée du système solaire : Sol (flagship), Terra (équilibré), Luna (léger et rapide). Ce lancement n'a toutefois pas été sans friction.

Le 2 juin 2026, le président Trump a signé un décret exécutif accordant aux agences fédérales jusqu'à 30 jours d'accès préalable aux modèles frontier pour examen de sécurité. Le 26 juin, à la demande de la Maison-Blanche (OSTP/ONCD), OpenAI a limité GPT-5.6 à environ 20 « partenaires de confiance » pré-approuvés — la première fois que le gouvernement américain impose formellement une restriction de publication à une entreprise d'IA.

« Nous ne pensons pas que ce processus d'accès gouvernemental devienne la norme à long terme de l'industrie. Il éloigne les meilleurs outils des utilisateurs, développeurs, entreprises et partenaires mondiaux qui en ont besoin. » — Sam Altman, PDG d'OpenAI

Points de friction pour les développeurs :

  • Accès restreint : pas de ChatGPT ni d'API publique ; Codex réservé aux partenaires.
  • Vide concurrentiel : Claude Fable 5 / Mythos 5 hors ligne depuis le 12 juin (contrôle des exportations) ; Gemini 3.5 Pro reporté à juillet.
  • Écart benchmark / production : Sol Ultra 91,9 %, mode standard 88,8 % — le compromis coût-latence est facile à sous-estimer.
  • Classification cyber « High » : les trois modèles atteignent le plus haut niveau de risque cybersécurité d'OpenAI — une première pour une gamme complète.
Statut des modèles frontier des « Big Three » (juin 2026)
Entreprise Modèle Statut
OpenAI GPT-5.6 Sol / Terra / Luna Aperçu limité (~20 partenaires)
Anthropic Claude Fable 5 / Mythos 5 Hors ligne le 12 juin (export control)
Google Gemini 3.5 Pro Reporté de juin à juillet

Analyse complémentaire : TechTimes.

02 Sol, Terra, Luna : modèles et grille tarifaire

GPT-5.6 Sol est le modèle le plus performant d'OpenAI — conçu pour le code complexe, la recherche cybersécurité longue durée et les workflows agentiques multi-étapes.

Deux nouveaux modes de raisonnement :

  • Mode Max : plus de temps d'inférence, précision maximale, latence accrue.
  • Mode Ultra : architecture multi-agents — sous-agents parallèles qui divisent la tâche et fusionnent les résultats. Cœur de la performance 91,9 % sur TerminalBench ; consommation de tokens nettement supérieure.

Terra : pilier enterprise (support, documents, outils internes) — performances proches de GPT-5.5 à 50 % de coût en moins.

Luna : haute fréquence, faible latence — premier modèle non-flagship avec notation « High » en cybersécurité et biologie.

Comparaison des trois modèles GPT-5.6
Modèle Positionnement Entrée Sortie Contexte
Sol Flagship 5 $ / 1M tokens 30 $ / 1M tokens ~1,5M tokens
Terra Équilibré 2,50 $ / 1M tokens 15 $ / 1M tokens ~1,5M tokens
Luna Léger/rapide 1 $ / 1M tokens 6 $ / 1M tokens ~1,5M tokens

Sol conserve le tarif GPT-5.5 (5 $/30 $) avec des performances nettement supérieures. Référence : Claude Fable 5 avant suspension (10 $/50 $). Source officielle : blog OpenAI.

Recommandations par cas d'usage
BesoinModèle recommandé
Code complexe, agents multi-étapesSol (Ultra)
Analyse documentaire, support clientTerra
Résumés, brouillons, automatisationLuna
Performance GPT-5.5, budget serréTerra
Ultra-faible latence (après juillet)Sol on Cerebras (750 token/s)

03 Données de benchmarks : de TerminalBench à Cerebras

Sources : OpenAI et Deployment Safety System Card.

TerminalBench 2.1 (89 défis CLI)
Modèle Score Mode
GPT-5.6 Sol91,9 %Ultra (multi-agents)
GPT-5.6 Sol88,8 %Standard
Claude Mythos 588,0 %Standard
GPT-5.583,4 %Standard
Gemini 3.1 Pro Preview70,7 %Standard

Mythos 5 dominait depuis le 9 juin — Sol l'a dépassé en 17 jours.

Agent's Last Exam et CTF
MétriqueValeur
Sol — Agent's Last Exam50,9 % (seul >50 %)
Sol — CTF96,7 %
Terra — CTF91,84 %
Luna — CTF85,19 %

ExploitBench : Sol égale Mythos Preview avec seulement ~1/3 des tokens de sortie. GeneBench v1 : moins de tokens que GPT-5.5, performance égale ou supérieure. HealthBench Professional : 60,5 (+8,7 vs. GPT-5.5).

Note de sécurité : Sol peut identifier des vulnérabilités sur Chromium et Firefox, mais ne peut pas construire de manière autonome une chaîne d'exploitation fonctionnelle complète — en dessous du seuil « Cyber Critical » d'OpenAI.

À partir de juillet 2026 : Sol sur Cerebras jusqu'à 750 token/s (vs. 50–150 token/s actuels = facteur 5–15). VentureBeat.

04 Guide opérationnel en 6 étapes

  1. Surveiller l'accès : blog OpenAI et Polymarket (87 % pour une sortie générale avant le 31 juillet).
  2. Concevoir un routage à 3 niveaux : Sol (agents complexes) / Terra (production volume) / Luna (léger/haute fréquence) — combiné avec Batch API et Prompt Caching.
  3. Plafonner les coûts Ultra : 91,9 % nécessite Ultra — routage par score de complexité, pas d'Ultra systématique.
  4. Planifier la migration depuis Mythos/Fable : alternatives export control et fuites de juin.
  5. Implémenter les garde-fous cyber : classification « High » — classificateurs temps réel, revue au niveau compte, filtres de sortie.
  6. Prévoir des hôtes agents stables : les baisses de prix API ne remplacent pas un Mac dédié 7×24 pour gateways et clusters MCP.

05 Comparaison Mythos 5, données clés, FAQ et sécurité

GPT-5.6 Sol vs Claude Mythos 5
Dimension GPT-5.6 Sol Claude Mythos 5
TerminalBench 2.191,9 % (Ultra) / 88,8 %88,0 %
ExploitBench~Mythos Preview, 1/3 tokensNon public
Prix entrée5 $/M10 $/M (hors ligne)
DisponibilitéAperçu limité → sortie généraleExport control
Contexte~1,5M tokens200K tokens

Fonctionnalités de sécurité (700 000 heures GPU A100-équivalent de red-teaming) : classificateurs de mauvais usage en temps réel, revue au niveau compte, tests universels de jailbreak, filtre de secours par modèle de raisonnement, tests par organisations externes.

Données citables (27.06.2026) :

  • TerminalBench : Sol Ultra 91,9 %, standard 88,8 %, Mythos 5 88,0 %, GPT-5.5 83,4 %, Gemini 3.1 Pro 70,7 %
  • Agent's Last Exam Sol 50,9 % ; CTF Sol 96,7 % / Terra 91,84 % / Luna 85,19 %
  • ExploitBench : 1/3 tokens ; HealthBench 60,5 (+8,7) ; Cerebras 750 token/s ; Polymarket 87 %

FAQ :

Q1 : GPT-5.6 est-il disponible sur ChatGPT ?
Pas encore pour le grand public. ~20 partenaires ; déploiement ChatGPT prévu en juillet 2026.
Q2 : Sol bat-il Fable 5 en code ?
TerminalBench : Sol 91,9 % vs Mythos 5 88 %. SWE-bench Pro : Fable 5 peut rester en tête — scores GPT-5.6 non encore publiés.
Q3 : Qu'est-ce que le mode Ultra ?
Sous-agents parallèles pour sous-tâches ; performance accrue, consommation de tokens plus élevée.
Q4 : Pourquoi l'accès est-il restreint ?
Demande de la Maison-Blanche après le décret du 2 juin. OpenAI s'y conforme tout en s'y opposant à long terme.
Q5 : Vitesse Cerebras ?
Jusqu'à 750 token/s — 5 à 15× plus rapide. Enterprise à partir de juillet.
Q6 : Fenêtre de contexte ?
~1,5M tokens (vs. 1M pour GPT-5.5). Confirmation officielle avec le System Card complet.
Q7 : Les trois modèles conviennent-ils au travail cyber ?
Tous classés « High ». Garde-fous en couches empêchent la construction autonome d'exploits complets.

06 Recommandations production et JEXCLOUD

GPT-5.6 marque une triple avancée : capacité (Sol Ultra 91,9 %), efficacité (ExploitBench à 1/3 des tokens), vitesse (Cerebras 750 token/s). Il établit aussi un précédent : la première intervention gouvernementale sur la publication d'un modèle frontier.

Les baisses de prix API ne résolvent pas trois coûts cachés : jitter de connexion longue sur VPS mutualisés, volatilité des tarifs API, absence d'hôtes Mac stables 7×24 pour pipelines multi-agents. Sol ou non, les gateways coding agent, routeurs d'inférence locale et clusters MCP nécessitent une capacité edge dédiée à faible jitter.

Pour les environnements de production exécutant coding agents, gateways d'inférence locale et clusters MCP Server en continu, JEXCLOUD Mac bare-metal multi-régions offre une mémoire unifiée Apple Silicon exclusive, zéro survente, gateways agents persistants via launchd, déploiement en 120 secondes. Nœuds et tarifs : page tarifs JEXCLOUD.