OpenAI × Broadcom: первый собственный ИИ-чип Jalapeño — стоимость инференса снижена на 50 %
24 июня 2026 года OpenAI и Broadcom представили первый кастомный чип инференса Jalapeño — ASIC, оптимизированный для инференса больших языковых моделей. Ранние тесты показывают экономию порядка 50 % на стоимости инференса по сравнению с ведущими ИИ-GPU. Производство на TSMC 3 нм; инженерный образец в лаборатории уже запускает GPT-5.3-Codex-Spark; к концу 2026 года — первое развёртывание в Microsoft Azure и других дата-центрах.
Для ИИ-инженеров, архитекторов инфраструктуры, тех-инвесторов и лиц, принимающих решения, статья отвечает на три вопроса: ① техническая архитектура, цепочка поставок и логика 9-месячной разработки Jalapeño; ② позиция относительно Google TPU, Amazon Inferentia, Microsoft Maia, Meta MTIA и NVIDIA Blackwell; ③ как командам действовать в шесть шагов в новой экономике инференса. Данные на 2026-06-25.
01 Стоимость инференса: почему OpenAI нужны собственные чипы
OpenAI — один из крупнейших потребителей GPU в мире. Каждый запрос к ChatGPT требует инференса (inference) — генерации ответа моделью. С ростом возможностей GPT-4 и GPT-5 стоимость инференса стала главным барьером рентабельности. NVIDIA H100, H200 и Blackwell мощны, но это универсальные ускорители; в однородных сценариях LLM-инференса значительная часть вычислений теряется — GPU NVIDIA — швейцарский нож, Jalapeño — скальпель.
Ключевые болевые точки:
- Неконтролируемый счёт за инференс: при сотнях миллионов DAU чистый GPU-инференс разъедает TCO и маржу — в резонансе со структурой высоких расходов OpenAI в суперцикле финансирования ИИ 2026.
- Зависимость от единственного поставщика: почти полная привязка к NVIDIA — без рычагов в переговорах о цене, сроках и наценках.
- Архитектурный дисбаланс: универсальные GPU покрывают обучение, игры и симуляции; узкое место пропускной способности памяти при LLM-инференсе не оптимизировано на уровне железа.
- Конкуренты впереди: Google, Amazon, Microsoft и Meta уже развёртывают собственные чипы; OpenAI — последний из гигантов, но с самым быстрым темпом.
| Компания | Собственный чип | Основное назначение | Примечание |
|---|---|---|---|
| TPU (Tensor Processing Unit) | Обучение + инференс | С 2015 г.; v5/v6 с Broadcom | |
| Amazon | Trainium / Inferentia | Обучение + инференс | Полный стек AWS; внешние инстансы |
| Microsoft | Maia 100 | Инференс | Развёртывание в Azure; первый партнёр Jalapeño |
| Meta | MTIA | Инференс | Broadcom — партнёр по ASIC |
| OpenAI | Jalapeño (2026) | Только инференс | Первый собственный ASIC; без обучения |
«Nobody wants to be beholden to Nvidia.» — Ben Barringer, глобальный руководитель технологических исследований Quilter Cheviot. Стратегия hyperscaler — не «отказаться от NVIDIA», а «перестать полностью от него зависеть».
02 Архитектура Jalapeño: ASIC, 3 нм и full-stack Tomahawk
ASIC (Application-Specific Integrated Circuit) означает, что чип делает одну вещь — LLM-инференс. Ни игры, ни обучение, ни универсальные вычисления; специализация даёт максимальную эффективность в целевой области.
Richard Ho, руководитель аппаратного направления OpenAI:
«Jalapeño спроектирован с нуля для LLM-инференса с учётом нашего опыта в выполнении ядер, перемещении данных в памяти, сетевой коммуникации и моделях обслуживания. Ранние тесты показывают работу критичных нагрузок близко к теоретическому пределу железа.»
Ключевые элементы архитектуры:
- Blank-slate-дизайн: проектирование от современного LLM-инференса; каждое решение следует паттерну вычислений Transformer, без заплаток на унаследованной GPU-архитектуре.
- Минимизация перемещения данных: узкое место инференса — пропускная способность памяти; постоянные переносы между памятью и вычислительными блоками тратят энергию и время; Jalapeño целенаправленно сокращает лишние трансферы.
- Баланс compute / memory / network: настройка под реальные LLM-нагрузки для утилизации ближе к теоретическому пику.
- Сетевая interconnect Broadcom Tomahawk: высокопроизводительные сетевые чипы для мощной межузловой связи в кластерах — критично для мульти-GPU инференса крупных моделей.
- Системная интеграция Celestica: EMS-партнёр интегрирует чип в материнские платы и стойки для масштабного производства.
| Роль | Компания | Зона ответственности |
|---|---|---|
| Архитектура чипа | OpenAI | Оптимизация LLM-инференса, full-stack-дизайн |
| Реализация & сеть | Broadcom | Кремний, сетевой чип Tomahawk, поддержка серии |
| Фабрика | TSMC | Производство 3 нм (тот же класс, что Apple M4, NVIDIA Blackwell) |
| Системная интеграция | Celestica | Материнская плата, стойка, интеграция сервера, серия |
| Первое развёртывание | Microsoft Azure | Дата-центр (с конца 2026 г.) |
Инженерные образцы в лабораториях OpenAI уже выполняют ML-нагрузки на целевой частоте и потреблении, включая флагманскую модель инференса для кода GPT-5.3-Codex-Spark.
| Имя | Должность | Роль |
|---|---|---|
| Greg Brockman | Сооснователь и президент OpenAI | Публичный анонс; «стратегия full-stack-инфраструктуры» |
| Richard Ho | Руководитель аппаратного направления OpenAI | Технический лидер архитектуры |
| Hock Tan | CEO Broadcom | Производительность сопоставима с Blackwell; экономия 50 % |
| Sam Altman | CEO OpenAI | Общая стратегия; контроль над compute-ёмкостью |
03 Метрики производительности, 9 месяцев разработки и дорожная карта
Данные ниже — от CEO Broadcom Hock Tan и официальных заявлений OpenAI; ранние результаты тестов. Полный технический отчёт через несколько месяцев; независимая сторонняя валидация отсутствует.
| Метрика | Jalapeño (ранний тест) | База сравнения |
|---|---|---|
| Экономия стоимости инференса | около 50 % | vs ведущие ИИ-GPU |
| Производительность на ватт | значительно выше SOTA | Официальное заявление OpenAI |
| Абсолютная производительность | сопоставима с NVIDIA Blackwell и Google TPU | CEO Broadcom, интервью Reuters |
| Тепловое поведение | лучше ожидаемого | Внутренние тесты OpenAI |
CEO Broadcom Hock Tan в интервью Bloomberg: «На данный момент Jalapeño демонстрирует около 50 % экономии по сравнению с типичными ИИ-GPU.»
Президент OpenAI Greg Brockman: «От первоначального дизайна до tape-out Jalapeño потребовалось всего 9 месяцев; часть проектирования использовала собственные ИИ-модели OpenAI.» OpenAI и Broadcom называют это самым быстрым циклом разработки ASIC в истории высокопроизводительной полупроводниковой отрасли.
Почему 9 месяцев?
- Плотная совместная разработка HW/SW: команды модели и чипа работают интегрированно — меньше переделок из-за неверных предположений о ПО.
- ИИ-ассистированное проектирование чипа: модели OpenAI ускоряют решения по дизайну; по данным VentureBeat, использовались модели предыдущего поколения.
- Зрелая IP-библиотека Broadcom: переиспользуемая IP в реализации и сети сокращает путь от логики к физике.
Почему NVIDIA не заменяется в краткосрочной перспективе:
- Только инференс, без обучения: frontier-обучение остаётся на NVIDIA H100/Blackwell; OpenAI подтверждает NVIDIA как ключевого партнёра по обучению.
- Экосистема CUDA: десятилетия CUDA, миллионы разработчиков и оптимизированные библиотеки — самый глубокий ров.
- Предел гибкости ASIC: фундаментальная смена архитектуры LLM (post-Transformer) потребует дорогой адаптации чипа.
Стратегия — диверсификация поставщиков и переговорный рычаг, а не разрыв: в феврале 2026 NVIDIA инвестировала $30 млрд напрямую в OpenAI. Даже 20–30 % нагрузки инференса на Jalapeño даёт реальную экономию и усиливает переговоры о цене с NVIDIA.
| Срок | Веха |
|---|---|
| Октябрь 2025 | OpenAI и Broadcom объявляют партнёрство по чипу |
| Февраль 2026 | NVIDIA инвестирует $30 млрд в OpenAI (соглашение по compute Vera Rubin) |
| 24 июня 2026 | Публичный анонс Jalapeño; инженерные образцы в лаборатории |
| Конец 2026 | Первые коммерческие развёртывания (Microsoft Azure и партнёры) |
| 2027 | Массовое производство; развёртывание > 1,3 ГВт |
| 2028 (прогноз) | Второе поколение чипа; затем ежегодная итерация |
| 2029 (цель) | Собственные чипы для 10 ГВт compute-ёмкости |
Официальная формулировка — «для текущих и будущих LLM всей отрасли»; возможное открытие для внешних компаний; приоритет — ChatGPT, Codex и API-инференс. Подробности: блог OpenAI и TechCrunch.
04 Шесть шагов: как командам отслеживать смену парадигмы чипов
Jalapeño пока на стадии инженерного образца, но волна ASIC инференса необратима. Техническим командам стоит выстроить систему координат в шесть шагов, чтобы не реагировать пассивно на цены API и выбор инфраструктуры:
- Радар анонсов чипов: блог OpenAI, Axios, Bloomberg и RSS полупроводниковой отрасли; алерты на серийное производство Jalapeño и первое развёртывание в Azure.
- Пересчитать модель стоимости инференса: «−50 %» как сценарий (консервативно 25 %, агрессивно 50 %) в бюджет API H2 2026–2027; параллельно гид по снижению цен ИИ за июнь по Batch API и Prompt Caching.
- Разделить обучение и инференс: обучение остаётся на CUDA/NVIDIA; слой инференса с мульти-бэкенд-абстракцией (OpenAI API, self-hosted vLLM, будущие инстансы Jalapeño) — без глубокой привязки к одному поставщику железа.
- Отслеживать графики чипов hyperscaler: сопоставить Google TPU, Amazon Inferentia, Microsoft Maia, Meta MTIA и Jalapeño; оценить необходимость мульти-облачного / мульти-модельного роутинга.
- Заранее оценить диверсификацию поставщиков: даже без прямого доступа к Jalapeño давление на снижение цен инференса распространяется по цепочке — матрица SLA, резидентности данных и экспортного контроля (см. суперцикл финансирования ИИ).
- Зарезервировать стабильные compute-хосты для prod-агентов: снижение цен на чипы не решает edge-стабильность — coding agents, кластеры MCP и локальные шлюзы инференса требуют выделенного хоста 7×24; overselling shared VPS и джиттер длинных соединений съедают облачную экономию.
05 Отраслевое влияние, конкуренция и цитируемые данные
Экономика инференса (Inference Economics) перестроит бизнес-модели ИИ. Если экономия 50 % подтвердится в продакшене, стоимость ChatGPT и API может снизиться ещё сильнее; путь OpenAI к прибыльности проясняется, нижняя граница «ценовой войны ИИ» опускается.
Цитата из блога OpenAI:
«OpenAI разрабатывает не только frontier-модели или продукты на их основе; компания проектирует инфраструктуру под ними: архитектуру чипа, ядра, системы памяти, сеть, планирование, развёртывание и пользовательский опыт.»
Конкуренция смещается от «чья модель лучше» к «чья full-stack-эффективность выше» — full-stack ИИ-компании становятся стандартом.
Рынок полупроводников дифференцируется:
- Выигрывают: Broadcom (Google TPU, Meta MTIA, OpenAI Jalapeño), TSMC (растущий спрос на 3 нм), SK hynix / Samsung (HBM).
- Под давлением: NVIDIA (доля инференса постепенно сжимается; обучение и CUDA сохраняются), AMD (слабое присутствие в волне ASIC инференса).
Broadcom становится «королём кастомных ASIC для ИИ»: рост YTD 2026 около 18 %, с конца 2022 кумулятивно почти 7×. NVIDIA отреагировала умеренно — обучение защищено в краткосрочной перспективе; тренд ASIC у крупных клиентов — структурное давление в долгую; Vera Rubin с крупными соглашениями о развёртывании.
Цитируемые данные (на 2026-06-25):
- Экономия стоимости инференса: ранний тест Jalapeño около 50 % vs типичный ИИ-GPU (Hock Tan, Bloomberg); производительность сопоставима с Blackwell и Google TPU (Reuters)
- Цикл разработки: от дизайна до tape-out 9 месяцев — самый быстрый высокопроизводительный ASIC по заявлениям; GPT-5.3-Codex-Spark на инженерном образце на целевой частоте
- Масштаб развёртывания: конец 2026 Azure → 2027 > 1,3 ГВт → 2029 цель 10 ГВт (порядок 10 АЭС); следующее поколение 2028
- Связь с NVIDIA: февраль 2026 прямые инвестиции $30 млрд — диверсификация, не разрыв
- Рынок Broadcom: YTD 2026 около 18 %, с конца 2022 кумулятивно около 7×
FAQ — 7 ключевых вопросов:
- В1: Jalapeño — замена GPU NVIDIA?
- Нет, по крайней мере пока. Только LLM-инференс, без обучения. NVIDIA в обучении в краткосрочной перспективе незаменима; скорее дополнение.
- В2: Экономия 50 % — проверенные данные?
- Ранние лабораторные данные по словам CEO Broadcom в Bloomberg; независимой сторонней валидации нет. Полный отчёт через несколько месяцев — оценивать с осторожностью.
- В3: Что почувствует обычный пользователь?
- При подтверждении экономии: ниже стоимость ChatGPT / API, возможно быстрее ответы; в долгую — более дешёвые и доступные ИИ-сервисы.
- В4: Почему название «Jalapeño»?
- Официального объяснения нет. OpenAI часто называет внутренние проекты едой; «перец» может намекать на остроту или воздействие на рынок.
- В5: Jalapeño откроют другим ИИ-компаниям?
- Формулировка «для LLM всей отрасли» намекает на будущее открытие; приоритет — собственные потребности OpenAI.
- В6: Когда следующее поколение Jalapeño?
- Запланирована мультипоколенная дорожная карта; следующий чип ожидается в 2028, затем ежегодная итерация.
- В7: Влияние на акции NVIDIA?
- Реакция ограничена. Обучение защищено в краткосрочной перспективе; тренд ASIC у крупных клиентов — структурное давление в долгую.
06 Стратегия и рекомендации для продакшена
Jalapeño — не серебряная пуля против доминирования NVIDIA, но уже запускает реальные модели в лаборатории и посылает ясный сигнал: эра, когда ИИ-компании покупают compute у того, кто предложит больше, заканчивается. OpenAI следует за Google, Amazon, Microsoft и Meta в собственный кремний — не чтобы полностью заменить NVIDIA, а ради рычага, снижения затрат и контроля над стеком. Если 50 % подтвердятся в продакшене, экономика ИИ изменится существенно: маржа OpenAI, цены API и доступный ИИ для миллионов разработчиков выиграют.
Для команд с продакшен-агентами снижение цен облачного инференса не снимает три скрытых издержки: джиттер длинных соединений из-за overselling shared VPS, волатильность цен API в цикле capex и отсутствие стабильного Mac-хоста 7×24 для мульти-агентных пайплайнов. Jalapeño здесь не помогает — шлюзы coding agents, локальные роутеры инференса и кластеры MCP требуют выделенного edge-compute с низким джиттером.
Для непрерывной работы coding agents, локальных шлюзов инференса или кластеров MCP в продакшене: JEXCLOUD bare-metal Mac в нескольких регионах — выделенная унифицированная память Apple Silicon, без overselling, шлюз агента на launchd, провижининг за 120 секунд. Тарифы: страница цен JEXCLOUD.