AI Agent GPT-5.6 2026.06.27

GPT-5.6 Sol, Terra и Luna: бенчмарки, цены и гайд по доступу (2026)

26 июня 2026 OpenAI официально выпустила семейство GPT-5.6 из трёх моделей: Sol (Солнце), Terra (Земля) и Luna (Луна). Флагман Sol набрал 91,9 % в TerminalBench 2.1 и сместил Claude Mythos 5 с первого места всего за 17 дней. Доступ сейчас ограничен примерно 20 одобренными партнёрами — следствие государственной проверки безопасности после указа Трампа от 2 июня.

Для AI-инженеров, разработчиков агентов и технических decision-maker'ов: ① система солнечной номенклатуры и вмешательство правительства; ② цены, режимы Max/Ultra и полные бенчмарки; ③ сравнение с Mythos 5, Cerebras 750 token/s в июле, прогноз Polymarket 87 %, 6-шаговая стратегия. Данные на 27.06.2026.

01 Контекст релиза и государственная проверка

OpenAI впервые ввела номенклатуру по небесным телам: Sol (флагман), Terra (баланс), Luna (лёгкий/быстрый). Релиз прошёл не гладко.

2 июня 2026 президент Трамп подписал указ, дающий федеральным агентствам до 30 дней предварительного доступа к frontier-моделям для проверки безопасности. 26 июня по запросу Белого дома (OSTP/ONCD) OpenAI ограничила GPT-5.6 примерно 20 предварительно одобренными «доверенными партнёрами» — впервые правительство США формально обязало AI-компанию ограничить публикацию модели.

«Мы не считаем, что такой государственный процесс доступа должен стать долгосрочной отраслевой нормой. Он отдаляет лучшие инструменты от пользователей, разработчиков, предприятий и глобальных партнёров.» — CEO OpenAI Sam Altman

Ключевые проблемы для разработчиков:

  • Ограниченный доступ: нет ChatGPT, нет публичного API; Codex только для партнёров.
  • Конкурентный вакуум: Claude Fable 5 / Mythos 5 offline с 12 июня (export control); Gemini 3.5 Pro перенесён на июль.
  • Разрыв бенчмарк/продакшен: Sol Ultra 91,9 %, стандарт 88,8 % — легко недооценить trade-off стоимость/латентность.
  • Классификация cyber «High»: все три модели достигли максимального уровня киберриска OpenAI — впервые во всей линейке.
Статус frontier-моделей «Big Three» (июнь 2026)
Компания Модель Статус
OpenAI GPT-5.6 Sol / Terra / Luna Ограниченный превью (~20 партнёров)
Anthropic Claude Fable 5 / Mythos 5 12.06. offline (export control)
Google Gemini 3.5 Pro Перенос с июня на июль

02 Sol, Terra, Luna: модели и ценообразование

GPT-5.6 Sol — самая мощная модель OpenAI: сложный код, длинные цепочки кибербезопасности, многошаговые agentic workflow.

Два новых режима рассуждения:

  • Max mode: больше времени на inference, выше точность, выше latency.
  • Ultra mode: мульти-агентная архитектура — параллельные суб-агенты делят задачу и синтезируют результат. Ядро 91,9 % в TerminalBench; значительно больше token consumption.

Terra: enterprise workhorse (support, документы, внутренние инструменты) — уровень GPT-5.5 при 50 % меньших затратах.

Luna: высокая частота, низкая latency — первая не-флагманская модель с рейтингом «High» в кибербезопасности и биологии.

Сравнение трёх моделей GPT-5.6
Модель Позиционирование Input Output Контекст
Sol Флагман $5 / 1M token $30 / 1M token ~1,5M token
Terra Баланс $2,50 / 1M token $15 / 1M token ~1,5M token
Luna Лёгкий/быстрый $1 / 1M token $6 / 1M token ~1,5M token

Цена Sol как у GPT-5.5 ($5/$30), но производительность существенно выше. Для сравнения: Claude Fable 5 до отключения — $10/$50. Официальный источник: блог OpenAI.

03 Бенчмарки: от TerminalBench до Cerebras

Источники: OpenAI и Deployment Safety System Card.

TerminalBench 2.1 (89 CLI-задач)
Модель Score Режим
GPT-5.6 Sol91,9 %Ultra (multi-agent)
GPT-5.6 Sol88,8 %Стандарт
Claude Mythos 588,0 %Стандарт
GPT-5.583,4 %Стандарт
Gemini 3.1 Pro Preview70,7 %Стандарт

Mythos 5 лидировал с 9 июня — Sol обогнал за 17 дней.

Agent's Last Exam и CTF hit rate
МетрикаЗначение
Sol — Agent's Last Exam50,9 % (единственный >50 %)
Sol — CTF96,7 %
Terra — CTF91,84 %
Luna — CTF85,19 %

ExploitBench: Sol на уровне Mythos Preview при ~1/3 output token. GeneBench v1: меньше token, чем GPT-5.5, равная или лучшая производительность. HealthBench Professional: 60,5 (+8,7 к GPT-5.5).

Замечание по безопасности: Sol может выявлять уязвимости в Chromium и Firefox, но не может автономно построить полноценную рабочую exploit chain — ниже порога «Cyber Critical» OpenAI.

С июля 2026: Sol на Cerebras до 750 token/s (vs. 50–150 token/s у текущих frontier = коэффициент 5–15). VentureBeat.

04 6-шаговый операционный гайд

  1. Мониторинг доступа: блог OpenAI и Polymarket (87 % для широкого релиза до 31.07.).
  2. 3-уровневый routing: Sol (сложные агенты) / Terra (production bulk) / Luna (лёгкий/частый) — в связке с Batch API и Prompt Caching.
  3. Потолок затрат Ultra: 91,9 % требует Ultra — routing по complexity score, не Ultra на каждый запрос.
  4. Миграция с Mythos/Fable: альтернативы export control и утечки июня.
  5. Cyber guardrails: все три модели «High» — real-time classifiers, account review, output filters до продакшена.
  6. Стабильные agent hosts: снижение цен API не заменяет выделенный Mac 7×24 для coding agent gateway и MCP-кластеров.

05 Сравнение с Mythos 5, hard data, FAQ, безопасность

GPT-5.6 Sol vs Claude Mythos 5
Измерение GPT-5.6 Sol Claude Mythos 5
TerminalBench 2.191,9 % (Ultra) / 88,8 %88,0 %
ExploitBench~Mythos Preview, 1/3 tokenНе публично
Input price$5/M$10/M (offline)
ДоступностьОграниченный превью → широкий релизExport control
Контекст~1,5M token200K token

Функции безопасности (700 000 GPU-часов A100-эквивалент red-teaming): real-time misuse classifiers, account-level review, universal jailbreak testing, backup reasoning filter, внешние security orgs.

Цитируемые hard data (27.06.2026):

  • TerminalBench: Sol Ultra 91,9 %, стандарт 88,8 %, Mythos 5 88,0 %, GPT-5.5 83,4 %, Gemini 3.1 Pro 70,7 %
  • Agent's Last Exam Sol 50,9 %; CTF Sol 96,7 % / Terra 91,84 % / Luna 85,19 %
  • ExploitBench: 1/3 token; HealthBench 60,5 (+8,7); Cerebras 750 token/s; Polymarket 87 %

FAQ:

Q1: GPT-5.6 доступен в ChatGPT?
Пока нет для широкой публики. ~20 партнёров; ChatGPT rollout ожидается в июле 2026.
Q2: Sol лучше Fable 5 в коде?
TerminalBench: Sol 91,9 % vs Mythos 5 88 %. SWE-bench Pro: Fable 5 может лидировать — полные scores GPT-5.6 не опубликованы.
Q3: Что такое Ultra mode?
Параллельные суб-агенты для подзадач; выше performance, больше token consumption.
Q4: Почему ограничен доступ?
Запрос Белого дома после указа 2 июня. OpenAI подчиняется, но против постоянной нормы.
Q5: Скорость Cerebras?
До 750 token/s — в 5–15 раз быстрее. Enterprise с июля.
Q6: Размер context window?
~1,5M token (vs. 1M у GPT-5.5). Официальное подтверждение с полным System Card.
Q7: Все три модели для cyber-работы?
Все «High». Многоуровневые safeguards блокируют автономное построение полных exploit.

06 Рекомендации для продакшена и JEXCLOUD

GPT-5.6 — тройной прорыв: capability (Sol Ultra 91,9 %), efficiency (ExploitBench при 1/3 token), speed (Cerebras 750 token/s). Одновременно — прецедент первого государственного вмешательства в публикацию frontier-модели.

Снижение цен cloud API не устраняет три скрытых cost: jitter long-connection на oversold VPS, волатильность API pricing, отсутствие стабильных Mac-хостов 7×24 для multi-agent pipelines. Sol или нет — coding agent gateway, local inference router и MCP-кластеры требуют выделенной edge capacity с низким jitter.

Для продакшен-сред с coding agent, local inference gateway и MCP Server cluster круглосуточно JEXCLOUD multi-region bare-metal Mac — exclusive Apple Silicon unified memory, без oversell jitter, launchd-persistent agent gateway, deploy за 120 секунд. Узлы и цены: страница цен JEXCLOUD.