AI Agent GPT-5.6 2026.06.27

GPT-5.6 Sol, Terra и Luna: бенчмарки, цены и гайд по доступу (2026)

JEX

Инженерная команда JEXCLOUD

· 27 июня 2026 · ~35 мин

26 июня 2026 OpenAI официально выпустила семейство GPT-5.6 из трёх моделей: Sol (Солнце), Terra (Земля) и Luna (Луна). Флагман Sol набрал 91,9 % в TerminalBench 2.1 и сместил Claude Mythos 5 с первого места всего за 17 дней. Доступ сейчас ограничен примерно 20 одобренными партнёрами — следствие государственной проверки безопасности после указа Трампа от 2 июня.

Для AI-инженеров, разработчиков агентов и технических decision-maker'ов: ① система солнечной номенклатуры и вмешательство правительства; ② цены, режимы Max/Ultra и полные бенчмарки; ③ сравнение с Mythos 5, Cerebras 750 token/s в июле, прогноз Polymarket 87 %, 6-шаговая стратегия. Данные на 27.06.2026.

01 Контекст релиза и государственная проверка

OpenAI впервые ввела номенклатуру по небесным телам: Sol (флагман), Terra (баланс), Luna (лёгкий/быстрый). Релиз прошёл не гладко.

2 июня 2026 президент Трамп подписал указ, дающий федеральным агентствам до 30 дней предварительного доступа к frontier-моделям для проверки безопасности. 26 июня по запросу Белого дома (OSTP/ONCD) OpenAI ограничила GPT-5.6 примерно 20 предварительно одобренными «доверенными партнёрами» — впервые правительство США формально обязало AI-компанию ограничить публикацию модели.

«Мы не считаем, что такой государственный процесс доступа должен стать долгосрочной отраслевой нормой. Он отдаляет лучшие инструменты от пользователей, разработчиков, предприятий и глобальных партнёров.» — CEO OpenAI Sam Altman

Ключевые проблемы для разработчиков:

Ограниченный доступ: нет ChatGPT, нет публичного API; Codex только для партнёров.
Конкурентный вакуум: Claude Fable 5 / Mythos 5 offline с 12 июня (export control); Gemini 3.5 Pro перенесён на июль.
Разрыв бенчмарк/продакшен: Sol Ultra 91,9 %, стандарт 88,8 % — легко недооценить trade-off стоимость/латентность.
Классификация cyber «High»: все три модели достигли максимального уровня киберриска OpenAI — впервые во всей линейке.

Статус frontier-моделей «Big Three» (июнь 2026)
Компания	Модель	Статус
OpenAI	GPT-5.6 Sol / Terra / Luna	Ограниченный превью (~20 партнёров)
Anthropic	Claude Fable 5 / Mythos 5	12.06. offline (export control)
Google	Gemini 3.5 Pro	Перенос с июня на июль

02 Sol, Terra, Luna: модели и ценообразование

GPT-5.6 Sol — самая мощная модель OpenAI: сложный код, длинные цепочки кибербезопасности, многошаговые agentic workflow.

Два новых режима рассуждения:

Max mode: больше времени на inference, выше точность, выше latency.
Ultra mode: мульти-агентная архитектура — параллельные суб-агенты делят задачу и синтезируют результат. Ядро 91,9 % в TerminalBench; значительно больше token consumption.

Terra: enterprise workhorse (support, документы, внутренние инструменты) — уровень GPT-5.5 при 50 % меньших затратах.

Luna: высокая частота, низкая latency — первая не-флагманская модель с рейтингом «High» в кибербезопасности и биологии.

Сравнение трёх моделей GPT-5.6
Модель	Позиционирование	Input	Output	Контекст
Sol	Флагман	$5 / 1M token	$30 / 1M token	~1,5M token
Terra	Баланс	$2,50 / 1M token	$15 / 1M token	~1,5M token
Luna	Лёгкий/быстрый	$1 / 1M token	$6 / 1M token	~1,5M token

Цена Sol как у GPT-5.5 ($5/$30), но производительность существенно выше. Для сравнения: Claude Fable 5 до отключения — $10/$50. Официальный источник: блог OpenAI.

03 Бенчмарки: от TerminalBench до Cerebras

Источники: OpenAI и Deployment Safety System Card.

TerminalBench 2.1 (89 CLI-задач)
Модель	Score	Режим
GPT-5.6 Sol	91,9 %	Ultra (multi-agent)
GPT-5.6 Sol	88,8 %	Стандарт
Claude Mythos 5	88,0 %	Стандарт
GPT-5.5	83,4 %	Стандарт
Gemini 3.1 Pro Preview	70,7 %	Стандарт

Mythos 5 лидировал с 9 июня — Sol обогнал за 17 дней.

Agent's Last Exam и CTF hit rate
Метрика	Значение
Sol — Agent's Last Exam	50,9 % (единственный >50 %)
Sol — CTF	96,7 %
Terra — CTF	91,84 %
Luna — CTF	85,19 %

ExploitBench: Sol на уровне Mythos Preview при ~1/3 output token. GeneBench v1: меньше token, чем GPT-5.5, равная или лучшая производительность. HealthBench Professional: 60,5 (+8,7 к GPT-5.5).

Замечание по безопасности: Sol может выявлять уязвимости в Chromium и Firefox, но не может автономно построить полноценную рабочую exploit chain — ниже порога «Cyber Critical» OpenAI.

С июля 2026: Sol на Cerebras до 750 token/s (vs. 50–150 token/s у текущих frontier = коэффициент 5–15). VentureBeat.

04 6-шаговый операционный гайд

Мониторинг доступа: блог OpenAI и Polymarket (87 % для широкого релиза до 31.07.).
3-уровневый routing: Sol (сложные агенты) / Terra (production bulk) / Luna (лёгкий/частый) — в связке с Batch API и Prompt Caching.
Потолок затрат Ultra: 91,9 % требует Ultra — routing по complexity score, не Ultra на каждый запрос.
Миграция с Mythos/Fable: альтернативы export control и утечки июня.
Cyber guardrails: все три модели «High» — real-time classifiers, account review, output filters до продакшена.
Стабильные agent hosts: снижение цен API не заменяет выделенный Mac 7×24 для coding agent gateway и MCP-кластеров.

05 Сравнение с Mythos 5, hard data, FAQ, безопасность

GPT-5.6 Sol vs Claude Mythos 5
Измерение	GPT-5.6 Sol	Claude Mythos 5
TerminalBench 2.1	91,9 % (Ultra) / 88,8 %	88,0 %
ExploitBench	~Mythos Preview, 1/3 token	Не публично
Input price	$5/M	$10/M (offline)
Доступность	Ограниченный превью → широкий релиз	Export control
Контекст	~1,5M token	200K token

Функции безопасности (700 000 GPU-часов A100-эквивалент red-teaming): real-time misuse classifiers, account-level review, universal jailbreak testing, backup reasoning filter, внешние security orgs.

Цитируемые hard data (27.06.2026):

TerminalBench: Sol Ultra 91,9 %, стандарт 88,8 %, Mythos 5 88,0 %, GPT-5.5 83,4 %, Gemini 3.1 Pro 70,7 %
Agent's Last Exam Sol 50,9 %; CTF Sol 96,7 % / Terra 91,84 % / Luna 85,19 %
ExploitBench: 1/3 token; HealthBench 60,5 (+8,7); Cerebras 750 token/s; Polymarket 87 %

FAQ:

Q1: GPT-5.6 доступен в ChatGPT?: Пока нет для широкой публики. ~20 партнёров; ChatGPT rollout ожидается в июле 2026.
Q2: Sol лучше Fable 5 в коде?: TerminalBench: Sol 91,9 % vs Mythos 5 88 %. SWE-bench Pro: Fable 5 может лидировать — полные scores GPT-5.6 не опубликованы.
Q3: Что такое Ultra mode?: Параллельные суб-агенты для подзадач; выше performance, больше token consumption.
Q4: Почему ограничен доступ?: Запрос Белого дома после указа 2 июня. OpenAI подчиняется, но против постоянной нормы.
Q5: Скорость Cerebras?: До 750 token/s — в 5–15 раз быстрее. Enterprise с июля.
Q6: Размер context window?: ~1,5M token (vs. 1M у GPT-5.5). Официальное подтверждение с полным System Card.
Q7: Все три модели для cyber-работы?: Все «High». Многоуровневые safeguards блокируют автономное построение полных exploit.

06 Рекомендации для продакшена и JEXCLOUD

GPT-5.6 — тройной прорыв: capability (Sol Ultra 91,9 %), efficiency (ExploitBench при 1/3 token), speed (Cerebras 750 token/s). Одновременно — прецедент первого государственного вмешательства в публикацию frontier-модели.

Снижение цен cloud API не устраняет три скрытых cost: jitter long-connection на oversold VPS, волатильность API pricing, отсутствие стабильных Mac-хостов 7×24 для multi-agent pipelines. Sol или нет — coding agent gateway, local inference router и MCP-кластеры требуют выделенной edge capacity с низким jitter.

Для продакшен-сред с coding agent, local inference gateway и MCP Server cluster круглосуточно JEXCLOUD multi-region bare-metal Mac — exclusive Apple Silicon unified memory, без oversell jitter, launchd-persistent agent gateway, deploy за 120 секунд. Узлы и цены: страница цен JEXCLOUD.

Назад к блогу

Теги: GPT-5.6 Sol Terra Luna TerminalBench Claude Mythos 5 AI Agent Cerebras