AI Agent OpenRouter 2026.06.04

Тренды LLM 2026: OpenRouter Rankings и выбор модели для Agent

Если в 2026 вы всё ещё пинаете default model в Cursor, Claude Code или OpenClaw вслепую — смотрите OpenRouter Rankings: сортировка по реальному объёму токенов, а не по MMLU из пресс-релиза. В июне наверху DeepSeek V4 Flash и Hy3 Preview от Tencent; китайский open source занимает примерно половину Top 10. 1M context и нормальный tool calling для агента — уже не фича, а baseline.

Текст для тех, кто рулит продакшен Agent-пайплайнами: зачем OpenRouter ближе к правде, чем бенчмарки; Top 10 июня 2026; девять моделей без воды; матрица сценарий–цена–скилл; шесть трендов с цифрами для слайдов; чеклист из шести шагов; когда нужен bare-metal Mac в облаке под 24/7. Источник: OpenRouter Rankings (снимок июнь 2026).

Цены и бенчмарки — референс на дату публикации; перед контрактом или prod default сверяйтесь с сайтами вендоров и своими load tests. Цель — прозрачная база для решения, не замена due diligence. Пересматривайте policy минимум раз в квартал и храните скриншоты рейтинга для трендового сравнения.

01 Почему OpenRouter Rankings бьёт MMLU для продакшена

OpenRouter — агрегатор сотен endpoint'ов (Anthropic, Google, DeepSeek, Tencent, Moonshot, NVIDIA и др.) с единым биллингом. Рейтинг строится на суммарных вызовах токенов (paid + free) — прокси «за что девелоперы реально платят каждый месяц».

Четыре типичных gap'а между лабораторным бенчмарком и вашим runtime:

  • Benchmark ≠ workload. MMLU/HumanEval — один shot ответа; в 2026 доминирует multi-step agent: repo scan → tools → PR → tests. SWE-bench Verified ближе, но не видит $/step и p99 latency.
  • Несравнимые SOTA от вендоров. Разные сеты, разные inference tiers — маркетинговый шум. OpenRouter выравнивает routing и pricing layer.
  • Overkill флагманом. Claude Opus 4.7 тащит сложные агенты, но гонять tagging и log summary через Opus — счёт ×10. В топе default чаще Flash-tier или open MoE.
  • Context window на бумаге. Длинный контекст без адекватного KV cost в проде не взлетает; лидеры Top 10 дают 256K–1M с терпимым API price.

Для архитектора: метрики должны коррелировать с пайплайном — steps/task, tool-call success rate, cache hit ratio, $/1M tokens. OpenRouter — внешний sanity check, не замена вашему A/B на репозитории.

Раз в квартал: выгрузить top-5 model id по доле токенов из OpenRouter, сравнить с invoice, если delta >15 п.п. — крутить routing policy. Иначе застрянете на релиз-нотах вместо usage data.

Мид-2026: война моделей сместилась с «кто умнее в чате» на «кто дешевле и стабильнее крутит agent loop часами».

Пример из практики: команда из 12 разработчиков, ~40 agent runs/день на человека, default Opus — ~180M input tokens/мес. После switch на V4 Flash default + Opus только на escalation — тот же usage pattern, ~22% token cost при сопоставимом merge rate на internal fixtures. Такие before/after фиксируйте до architecture sign-off.

02 OpenRouter Top 10, июнь 2026: токены и вектор роста

Таблица — OpenRouter Rankings (июнь 2026) плюс сторонний мониторинг месячных токенов. Абсолютные цифры плавают ежедневно; перед контрактом смотрите live page.

OpenRouter Top 10 (июнь 2026, по объёму токенов)
# Модель Вендор Объём (порядок) Тренд Киллер-фичи
1 DeepSeek V4 Flash DeepSeek ~7,99T–10,9T резкий рост MoE 284B/13B active, 1M ctx, дешёвый API
2 Hy3 Preview Tencent Hunyuan ~7T–10,7T резкий рост open MoE, agent/reasoning, +40% efficiency
3 Claude Opus 4.7 Anthropic ~6T–7,5T рост флагман reasoning, vision, long agent runs
4 Claude Sonnet 4.6 Anthropic ~6,6T–7,5T стабильно prod default, free tier, баланс цена/качество
5 Owl Alpha OpenRouter ~5T резкий рост $0, 1,05M ctx, заточка под agent
6 Gemini 3 Flash Preview Google ~4,6T стабильно multimodal, low latency, SWE-bench ~78%
7 DeepSeek V4 Pro DeepSeek ~3,4T–4,5T рост MoE 1,6T flagship, тяжёлые агенты
8 DeepSeek V3.2 DeepSeek ~4T спад (замена V4) legacy, ещё жив, рост тормозит
9 Kimi K2.6 Moonshot ~3,7T–5,5T стабильно 1T MoE, Agent Swarm, open weights
10 Nemotron 3 Super (free) NVIDIA ~2,65T стабильно free, Mamba+Transformer, 1M ctx

Главный сигнал: ~половина Top 10 — китайские команды (DeepSeek ×3, Tencent Hy3, Moonshot Kimi), в основном open source или ультра-дешёвый API. Западные closed flagship сильны, но прирост идёт от «price/perf + long-context agent», не от chat UX.

Для roadmap: наложите таблицу на свой token mix (input vs output, cache reads). Если >60% токенов — coding agent с ctx >100k, первая гипотеза Flash-MoE + 1M, не Opus по умолчанию.

Векторы «резкий рост» у V4 Flash, Hy3, Owl — индикатор быстрой адопции в IDE/CI toolchain; имеет смысл ревьюить V3.2/Sonnet-only defaults до продления контрактов.

Колонка token volume — aggregate по всем клиентам OpenRouter; ваш vertical (fintech, gamedev, enterprise SaaS) может отличаться. Таблица — priority list для pilot, не SLA. Если модель на 8-м месте в рейтинге, но у вас минимальный tool parse error rate — побеждает ваш замер.

03 DeepSeek V4 Flash, Hy3, Claude: границы моделей без маркетинга

DeepSeek V4 Flash (284B total, 13B active MoE) — #1 OpenRouter: нативный 1M context, копеечный API. На 1M сценариях FLOPs/token ~10% от V3.2, KV cache ~7% (цифры вендора). Режимы Non-think / Think High / Think Max; tool calls через XML — меньше боли с вложенным JSON. Default backend в Claude Code, OpenClaw и похожих стеках.

Hy3 Preview (Tencent Hunyuan 3, 295B/21B active + MTP speculative decode): open weights, ~+40% inference efficiency vs прошлое поколение; SWE-bench Verified ~74,4%, Terminal-Bench 2.0 на уровне Kimi K2.5. Для команд с self-host compliance без просадки agent skills.

Claude Opus 4.7 — по-прежнему эталон для тяжёлого софта и vision-heavy tasks: CursorBench ~70% (Sonnet 4.6 ~58%); на ~1h autonomous run «lost in the middle» примерно в 2× реже Sonnet. Цена $5/$25 per M tokens in/out. Claude Sonnet 4.6 — рабочий daily driver: code benchmarks обгоняют старый Sonnet-уровень Opus, цена ~60% Opus, полный free tier.

Owl Alpha и Nemotron 3 Super (free) — нулевой API bill: Owl (OpenRouter stealth, 1,05M ctx, не для sensitive data); Nemotron (NVIDIA 120B/12B active, MoE+Mamba, высокий throughput на self-host). Gemini 3 Flash Preview: multimodal in, SWE-bench Verified ~78%. Kimi K2.6 (1T/32B MoE): Agent Swarm (~300 sub-agents, ~4000 coordination steps) для ultra-long unattended runs.

Локальный inference V4 на Mac (ds4, порог RAM) — в гайде ds4 + cloud Mac с большой памятью. Здесь — API и hybrid routing.

Decision tree в лоб: жмёте бюджет и много steps → V4 Flash или Owl (privacy policy). Compliance/on-prem → Hy3 или Kimi. Google stack + multimodal → Gemini 3 Flash. Два фейла подряд или run >30 min → Opus 4.7 или V4 Pro. Это сужает search space до pilot; 50-run fixture на вашем repo всё равно обязателен.

Inference tiers DeepSeek: Think High / Think Max поднимают quality на terminal/reasoning, но бьют по latency и output tokens. Для IDE refactor loop часто хватает Non-think; для overnight issue resolution Think Max может резать retry rate вдвое — меряйте на своём пайплайне.

Hy3 и Kimi: смотрите license (commercial vs research), GPU footprint и умеет ли MLOps MoE + speculative decode. Open weights экономят API, но переносят capex/ops на ваш кластер; ниже ~500M tokens/мес Flash-API часто предсказуемее по TCO.

04 Как выбрать LLM API: матрица сценарий–цена–скилл

Типовые сценарии (цены API на момент публикации — проверяйте live)
Сценарий Primary Fallback Input ($/M tokens) Почему
Офис (summary/translate) Claude Sonnet 4.6 Gemini 3 Flash $3 / $0.50 стабильный instruction following, free tier
High-freq coding agent DeepSeek V4 Flash Claude Sonnet 4.6 ~$0.14 / $3 1M ctx на весь monorepo, tools ок
Long agent (>30 min) Claude Opus 4.7 DeepSeek V4 Pro $5 / ~$1.74 низкий drift, STEM/legal reasoning
Cost-sensitive / prototype Owl Alpha Nemotron 3 Super $0 / $0 free long ctx, читайте privacy
Multimodal image/video/PDF Gemini 3 Flash Claude Opus 4.7 $0.50 / $5 native multimodal + Google tools
Self-host / Agent Swarm Kimi K2.6 Hy3 Preview self-host open license + parallel sub-agents
Enterprise throughput self-host Nemotron 3 Super DeepSeek V4 Flash self-host / ~$0.14 Mamba mix, throughput

Dual-model routing — рабочая схема: ~80% запросов на DeepSeek V4 Flash или Sonnet 4.6; bump на Opus 4.7 / V4 Pro после двух fail или тега high-risk. OpenRouter gateway позволяет это без переписывания клиентов — только policy на edge.

Считайте месячный burn явно: (prompt + completion − cache reads) × effective $/M. 50M input tokens/мес — разница между Opus-only и Flash+cache часто на порядок; FinOps обычно одобряет после такой таблички.

Для compliance: по каждому сценарию зафиксируйте data residency, log retention gateway'а и opt-out обучения у free-моделей (Owl, Nemotron free). Матрица — technical, не legal; юридический sign-off до prod default обязателен.

05 Шесть трендов LLM 2026 и цифры для слайдов

  • Тренд 1: 1M context — новый baseline. DeepSeek V4, Claude Opus 4.7, Owl Alpha, Gemini 3 Flash, Nemotron 3 Super; whole-repo RAG слабеет, KV/bandwidth толкают MoE.
  • Тренд 2: китайский open source глобально. DeepSeek + Tencent + Moonshot на OpenRouter часто растут быстрее одного западного вендора; MIT/Apache снижают friction миграции.
  • Тренд 3: agent metrics > text benchmarks. SWE-bench Verified, Terminal-Bench 2.0, BrowseComp в каждом launch; стабильность XML/JSON tool calls важнее MMLU в procurement.
  • Тренд 4: MoE выиграл Top 10. Плотных trillion-scale почти нет; V4 Flash на 13B active даёт prod experience как сотни B dense.
  • Тренд 5: free tier давит pricing. Owl Alpha, Nemotron free → Claude/Gemini усиливают free tier и cache (Gemini context cache до ~90% на repeat input).
  • Тренд 6: multimodal — ticket to play. Pure text models в рейтинге растут медленнее Gemini 3 Flash и Claude vision.

Цифры для цитирования (публичные источники, перепроверьте перед prod):

  • DeepSeek V4 Flash API: input ~$0.14/M (cache hit ~$0.028/M), output ~$0.28/M; 1M ctx, max output 384K.
  • V4 Pro vs Flash (tech report): SWE-Verified ~80.6 vs 79; Terminal-Bench 2.0 ~67.9 vs 56.9 — максимальный gap на terminal tasks.
  • Claude Opus 4.7 vs Sonnet 4.6: CursorBench ~70% vs 58%; long agent drift у Opus ~в 2 раза ниже (порядок величины).
  • Gemini 3 Flash Preview: SWE-bench Verified ~78%; batch API ~−50% cost (Google docs).
  • Kimi K2.6 Agent Swarm: ~300 sub-agents, ~4000 steps; BrowseComp ~83.2, SWE-Bench Verified ~80.2 (Moonshot).

Для architecture review: тренды 1–4 бэкаются Top 10 OpenRouter; 5–6 — вашим token mix и tool-call error rate. Сохраняйте снимки рейтинга в wiki — через квартал видно, кто реально набирает adoption, а не только hype в Twitter.

Отдельно задокументируйте cache strategy: prompt caching у Anthropic/Google, reuse prefix для длинных system prompt и повторяющихся repo snapshot'ов может сильнее сдвинуть effective input $/M, чем смена модели на один пункт бенчмарка. Cache hit rate — weekly metric, привяжите к routing rules.

06 Шесть шагов выбора модели для Agent и cloud Mac

  1. Инвентаризация workload: 30 дней — средние steps, tool calls, image/PDF; >20 steps или много retries → квота Opus/V4 Pro.
  2. Оценка token bill: effective price OpenRouter (с cache read) × daily volume; Flash tier обычно 5–20× дешевле flagship.
  3. Unified gateway: project key, default V4 Flash или Sonnet 4.6, monthly spend limit.
  4. Dual routing: в Cursor / Claude Code / OpenClaw — simple edit vs heavy refactor на разные model id; upgrade после двух fail.
  5. Tool-call stress test: fixture repo с 10+ tool defs, 50 циклов, мерить JSON/XML parse fail rate — spread часто больше, чем MMLU delta.
  6. 24/7 host: API keys, Skills, launchd в git; dedicated Mac под gateway/CLI (OpenClaw remote Mac + launchd).

Опциональный шаг 7 для крупных команд: model guild с monthly review (token mix, incidents, cost) и документированный escalation path Flash → Pro/Opus — чтобы routing не жил в личных чатах. Пороги автоматической эскалации (два tool-fail подряд или runtime >30 min) и лог каждой эскалации — must-have для postmortem и FinOps.

API закрывает «мозги и цену», но не uptime runner'а: личный Mac sleep → stream рвётся; перегруженный VPS без настоящего macOS → Metal/TCC лотерея, SSH рвёт tool loop; shared iron → разъехавшиеся Xcode/CLI и key rotation.

Если параллельно крутите Cursor Agent, OpenClaw Gateway и iOS CIJEXCLOUD multi-region bare-metal Mac: dedicated Apple Silicon, настоящий macOS, ~120s provision, гибкая помесячная аренда; routing в облаке, model bill через OpenRouter. Тарифы, Справка.

Definition of done миграции: та же task suite, 14 дней — сравнить latency, error rate, $/task. Без этого смена model id — faith-based deploy без аудита для stakeholders и FinOps.

Версионируйте вместе с app code: gateway config, skill manifests, launchd plists. На инциденте откатываетесь на last known good без ручного охоты за keys на ноутбуках. Дисциплина не зависит от выбранного LLM, но критична для agent SLA в проде. Алерты на spend limit и аномалии tool error rate — иначе сюрприз в конце месяца гарантирован и квартальный FinOps review усложняется.