AI Agent ASIC инференса 2026.06.25

OpenAI × Broadcom: первый собственный ИИ-чип Jalapeño — стоимость инференса снижена на 50 %

24 июня 2026 года OpenAI и Broadcom представили первый кастомный чип инференса Jalapeño — ASIC, оптимизированный для инференса больших языковых моделей. Ранние тесты показывают экономию порядка 50 % на стоимости инференса по сравнению с ведущими ИИ-GPU. Производство на TSMC 3 нм; инженерный образец в лаборатории уже запускает GPT-5.3-Codex-Spark; к концу 2026 года — первое развёртывание в Microsoft Azure и других дата-центрах.

Для ИИ-инженеров, архитекторов инфраструктуры, тех-инвесторов и лиц, принимающих решения, статья отвечает на три вопроса: ① техническая архитектура, цепочка поставок и логика 9-месячной разработки Jalapeño; ② позиция относительно Google TPU, Amazon Inferentia, Microsoft Maia, Meta MTIA и NVIDIA Blackwell; ③ как командам действовать в шесть шагов в новой экономике инференса. Данные на 2026-06-25.

01 Стоимость инференса: почему OpenAI нужны собственные чипы

OpenAI — один из крупнейших потребителей GPU в мире. Каждый запрос к ChatGPT требует инференса (inference) — генерации ответа моделью. С ростом возможностей GPT-4 и GPT-5 стоимость инференса стала главным барьером рентабельности. NVIDIA H100, H200 и Blackwell мощны, но это универсальные ускорители; в однородных сценариях LLM-инференса значительная часть вычислений теряется — GPU NVIDIA — швейцарский нож, Jalapeño — скальпель.

Ключевые болевые точки:

  • Неконтролируемый счёт за инференс: при сотнях миллионов DAU чистый GPU-инференс разъедает TCO и маржу — в резонансе со структурой высоких расходов OpenAI в суперцикле финансирования ИИ 2026.
  • Зависимость от единственного поставщика: почти полная привязка к NVIDIA — без рычагов в переговорах о цене, сроках и наценках.
  • Архитектурный дисбаланс: универсальные GPU покрывают обучение, игры и симуляции; узкое место пропускной способности памяти при LLM-инференсе не оптимизировано на уровне железа.
  • Конкуренты впереди: Google, Amazon, Microsoft и Meta уже развёртывают собственные чипы; OpenAI — последний из гигантов, но с самым быстрым темпом.
Конкурентная карта: собственные ИИ-чипы hyperscaler
Компания Собственный чип Основное назначение Примечание
Google TPU (Tensor Processing Unit) Обучение + инференс С 2015 г.; v5/v6 с Broadcom
Amazon Trainium / Inferentia Обучение + инференс Полный стек AWS; внешние инстансы
Microsoft Maia 100 Инференс Развёртывание в Azure; первый партнёр Jalapeño
Meta MTIA Инференс Broadcom — партнёр по ASIC
OpenAI Jalapeño (2026) Только инференс Первый собственный ASIC; без обучения

«Nobody wants to be beholden to Nvidia.» — Ben Barringer, глобальный руководитель технологических исследований Quilter Cheviot. Стратегия hyperscaler — не «отказаться от NVIDIA», а «перестать полностью от него зависеть».

02 Архитектура Jalapeño: ASIC, 3 нм и full-stack Tomahawk

ASIC (Application-Specific Integrated Circuit) означает, что чип делает одну вещь — LLM-инференс. Ни игры, ни обучение, ни универсальные вычисления; специализация даёт максимальную эффективность в целевой области.

Richard Ho, руководитель аппаратного направления OpenAI:

«Jalapeño спроектирован с нуля для LLM-инференса с учётом нашего опыта в выполнении ядер, перемещении данных в памяти, сетевой коммуникации и моделях обслуживания. Ранние тесты показывают работу критичных нагрузок близко к теоретическому пределу железа.»

Ключевые элементы архитектуры:

  • Blank-slate-дизайн: проектирование от современного LLM-инференса; каждое решение следует паттерну вычислений Transformer, без заплаток на унаследованной GPU-архитектуре.
  • Минимизация перемещения данных: узкое место инференса — пропускная способность памяти; постоянные переносы между памятью и вычислительными блоками тратят энергию и время; Jalapeño целенаправленно сокращает лишние трансферы.
  • Баланс compute / memory / network: настройка под реальные LLM-нагрузки для утилизации ближе к теоретическому пику.
  • Сетевая interconnect Broadcom Tomahawk: высокопроизводительные сетевые чипы для мощной межузловой связи в кластерах — критично для мульти-GPU инференса крупных моделей.
  • Системная интеграция Celestica: EMS-партнёр интегрирует чип в материнские платы и стойки для масштабного производства.
Цепочка поставок Jalapeño
Роль Компания Зона ответственности
Архитектура чипа OpenAI Оптимизация LLM-инференса, full-stack-дизайн
Реализация & сеть Broadcom Кремний, сетевой чип Tomahawk, поддержка серии
Фабрика TSMC Производство 3 нм (тот же класс, что Apple M4, NVIDIA Blackwell)
Системная интеграция Celestica Материнская плата, стойка, интеграция сервера, серия
Первое развёртывание Microsoft Azure Дата-центр (с конца 2026 г.)

Инженерные образцы в лабораториях OpenAI уже выполняют ML-нагрузки на целевой частоте и потреблении, включая флагманскую модель инференса для кода GPT-5.3-Codex-Spark.

Ключевые персоны
Имя Должность Роль
Greg Brockman Сооснователь и президент OpenAI Публичный анонс; «стратегия full-stack-инфраструктуры»
Richard Ho Руководитель аппаратного направления OpenAI Технический лидер архитектуры
Hock Tan CEO Broadcom Производительность сопоставима с Blackwell; экономия 50 %
Sam Altman CEO OpenAI Общая стратегия; контроль над compute-ёмкостью

03 Метрики производительности, 9 месяцев разработки и дорожная карта

Данные ниже — от CEO Broadcom Hock Tan и официальных заявлений OpenAI; ранние результаты тестов. Полный технический отчёт через несколько месяцев; независимая сторонняя валидация отсутствует.

Ранние метрики Jalapeño (официальные внутренние тесты)
Метрика Jalapeño (ранний тест) База сравнения
Экономия стоимости инференса около 50 % vs ведущие ИИ-GPU
Производительность на ватт значительно выше SOTA Официальное заявление OpenAI
Абсолютная производительность сопоставима с NVIDIA Blackwell и Google TPU CEO Broadcom, интервью Reuters
Тепловое поведение лучше ожидаемого Внутренние тесты OpenAI

CEO Broadcom Hock Tan в интервью Bloomberg: «На данный момент Jalapeño демонстрирует около 50 % экономии по сравнению с типичными ИИ-GPU.»

Президент OpenAI Greg Brockman: «От первоначального дизайна до tape-out Jalapeño потребовалось всего 9 месяцев; часть проектирования использовала собственные ИИ-модели OpenAI.» OpenAI и Broadcom называют это самым быстрым циклом разработки ASIC в истории высокопроизводительной полупроводниковой отрасли.

Почему 9 месяцев?

  1. Плотная совместная разработка HW/SW: команды модели и чипа работают интегрированно — меньше переделок из-за неверных предположений о ПО.
  2. ИИ-ассистированное проектирование чипа: модели OpenAI ускоряют решения по дизайну; по данным VentureBeat, использовались модели предыдущего поколения.
  3. Зрелая IP-библиотека Broadcom: переиспользуемая IP в реализации и сети сокращает путь от логики к физике.

Почему NVIDIA не заменяется в краткосрочной перспективе:

  • Только инференс, без обучения: frontier-обучение остаётся на NVIDIA H100/Blackwell; OpenAI подтверждает NVIDIA как ключевого партнёра по обучению.
  • Экосистема CUDA: десятилетия CUDA, миллионы разработчиков и оптимизированные библиотеки — самый глубокий ров.
  • Предел гибкости ASIC: фундаментальная смена архитектуры LLM (post-Transformer) потребует дорогой адаптации чипа.

Стратегия — диверсификация поставщиков и переговорный рычаг, а не разрыв: в феврале 2026 NVIDIA инвестировала $30 млрд напрямую в OpenAI. Даже 20–30 % нагрузки инференса на Jalapeño даёт реальную экономию и усиливает переговоры о цене с NVIDIA.

График развёртывания Jalapeño
Срок Веха
Октябрь 2025 OpenAI и Broadcom объявляют партнёрство по чипу
Февраль 2026 NVIDIA инвестирует $30 млрд в OpenAI (соглашение по compute Vera Rubin)
24 июня 2026 Публичный анонс Jalapeño; инженерные образцы в лаборатории
Конец 2026 Первые коммерческие развёртывания (Microsoft Azure и партнёры)
2027 Массовое производство; развёртывание > 1,3 ГВт
2028 (прогноз) Второе поколение чипа; затем ежегодная итерация
2029 (цель) Собственные чипы для 10 ГВт compute-ёмкости

Официальная формулировка — «для текущих и будущих LLM всей отрасли»; возможное открытие для внешних компаний; приоритет — ChatGPT, Codex и API-инференс. Подробности: блог OpenAI и TechCrunch.

04 Шесть шагов: как командам отслеживать смену парадигмы чипов

Jalapeño пока на стадии инженерного образца, но волна ASIC инференса необратима. Техническим командам стоит выстроить систему координат в шесть шагов, чтобы не реагировать пассивно на цены API и выбор инфраструктуры:

  1. Радар анонсов чипов: блог OpenAI, Axios, Bloomberg и RSS полупроводниковой отрасли; алерты на серийное производство Jalapeño и первое развёртывание в Azure.
  2. Пересчитать модель стоимости инференса: «−50 %» как сценарий (консервативно 25 %, агрессивно 50 %) в бюджет API H2 2026–2027; параллельно гид по снижению цен ИИ за июнь по Batch API и Prompt Caching.
  3. Разделить обучение и инференс: обучение остаётся на CUDA/NVIDIA; слой инференса с мульти-бэкенд-абстракцией (OpenAI API, self-hosted vLLM, будущие инстансы Jalapeño) — без глубокой привязки к одному поставщику железа.
  4. Отслеживать графики чипов hyperscaler: сопоставить Google TPU, Amazon Inferentia, Microsoft Maia, Meta MTIA и Jalapeño; оценить необходимость мульти-облачного / мульти-модельного роутинга.
  5. Заранее оценить диверсификацию поставщиков: даже без прямого доступа к Jalapeño давление на снижение цен инференса распространяется по цепочке — матрица SLA, резидентности данных и экспортного контроля (см. суперцикл финансирования ИИ).
  6. Зарезервировать стабильные compute-хосты для prod-агентов: снижение цен на чипы не решает edge-стабильность — coding agents, кластеры MCP и локальные шлюзы инференса требуют выделенного хоста 7×24; overselling shared VPS и джиттер длинных соединений съедают облачную экономию.

05 Отраслевое влияние, конкуренция и цитируемые данные

Экономика инференса (Inference Economics) перестроит бизнес-модели ИИ. Если экономия 50 % подтвердится в продакшене, стоимость ChatGPT и API может снизиться ещё сильнее; путь OpenAI к прибыльности проясняется, нижняя граница «ценовой войны ИИ» опускается.

Цитата из блога OpenAI:

«OpenAI разрабатывает не только frontier-модели или продукты на их основе; компания проектирует инфраструктуру под ними: архитектуру чипа, ядра, системы памяти, сеть, планирование, развёртывание и пользовательский опыт.»

Конкуренция смещается от «чья модель лучше» к «чья full-stack-эффективность выше» — full-stack ИИ-компании становятся стандартом.

Рынок полупроводников дифференцируется:

  • Выигрывают: Broadcom (Google TPU, Meta MTIA, OpenAI Jalapeño), TSMC (растущий спрос на 3 нм), SK hynix / Samsung (HBM).
  • Под давлением: NVIDIA (доля инференса постепенно сжимается; обучение и CUDA сохраняются), AMD (слабое присутствие в волне ASIC инференса).

Broadcom становится «королём кастомных ASIC для ИИ»: рост YTD 2026 около 18 %, с конца 2022 кумулятивно почти . NVIDIA отреагировала умеренно — обучение защищено в краткосрочной перспективе; тренд ASIC у крупных клиентов — структурное давление в долгую; Vera Rubin с крупными соглашениями о развёртывании.

Цитируемые данные (на 2026-06-25):

  • Экономия стоимости инференса: ранний тест Jalapeño около 50 % vs типичный ИИ-GPU (Hock Tan, Bloomberg); производительность сопоставима с Blackwell и Google TPU (Reuters)
  • Цикл разработки: от дизайна до tape-out 9 месяцев — самый быстрый высокопроизводительный ASIC по заявлениям; GPT-5.3-Codex-Spark на инженерном образце на целевой частоте
  • Масштаб развёртывания: конец 2026 Azure → 2027 > 1,3 ГВт → 2029 цель 10 ГВт (порядок 10 АЭС); следующее поколение 2028
  • Связь с NVIDIA: февраль 2026 прямые инвестиции $30 млрд — диверсификация, не разрыв
  • Рынок Broadcom: YTD 2026 около 18 %, с конца 2022 кумулятивно около

FAQ — 7 ключевых вопросов:

В1: Jalapeño — замена GPU NVIDIA?
Нет, по крайней мере пока. Только LLM-инференс, без обучения. NVIDIA в обучении в краткосрочной перспективе незаменима; скорее дополнение.
В2: Экономия 50 % — проверенные данные?
Ранние лабораторные данные по словам CEO Broadcom в Bloomberg; независимой сторонней валидации нет. Полный отчёт через несколько месяцев — оценивать с осторожностью.
В3: Что почувствует обычный пользователь?
При подтверждении экономии: ниже стоимость ChatGPT / API, возможно быстрее ответы; в долгую — более дешёвые и доступные ИИ-сервисы.
В4: Почему название «Jalapeño»?
Официального объяснения нет. OpenAI часто называет внутренние проекты едой; «перец» может намекать на остроту или воздействие на рынок.
В5: Jalapeño откроют другим ИИ-компаниям?
Формулировка «для LLM всей отрасли» намекает на будущее открытие; приоритет — собственные потребности OpenAI.
В6: Когда следующее поколение Jalapeño?
Запланирована мультипоколенная дорожная карта; следующий чип ожидается в 2028, затем ежегодная итерация.
В7: Влияние на акции NVIDIA?
Реакция ограничена. Обучение защищено в краткосрочной перспективе; тренд ASIC у крупных клиентов — структурное давление в долгую.

06 Стратегия и рекомендации для продакшена

Jalapeño — не серебряная пуля против доминирования NVIDIA, но уже запускает реальные модели в лаборатории и посылает ясный сигнал: эра, когда ИИ-компании покупают compute у того, кто предложит больше, заканчивается. OpenAI следует за Google, Amazon, Microsoft и Meta в собственный кремний — не чтобы полностью заменить NVIDIA, а ради рычага, снижения затрат и контроля над стеком. Если 50 % подтвердятся в продакшене, экономика ИИ изменится существенно: маржа OpenAI, цены API и доступный ИИ для миллионов разработчиков выиграют.

Для команд с продакшен-агентами снижение цен облачного инференса не снимает три скрытых издержки: джиттер длинных соединений из-за overselling shared VPS, волатильность цен API в цикле capex и отсутствие стабильного Mac-хоста 7×24 для мульти-агентных пайплайнов. Jalapeño здесь не помогает — шлюзы coding agents, локальные роутеры инференса и кластеры MCP требуют выделенного edge-compute с низким джиттером.

Для непрерывной работы coding agents, локальных шлюзов инференса или кластеров MCP в продакшене: JEXCLOUD bare-metal Mac в нескольких регионах — выделенная унифицированная память Apple Silicon, без overselling, шлюз агента на launchd, провижининг за 120 секунд. Тарифы: страница цен JEXCLOUD.