AI Agent OpenRouter 2026.06.06

OpenRouter Wochen-Token-Rankings: Abrechnungsdaten lügen nicht — wer führt wirklich?

Während MMLU und HumanEval auf Keynotes um „Intelligenz" ringen, misst das OpenRouter-Wochenranking etwas anderes: wie viele Billionen Tokens Entwickler und Unternehmen in den letzten sieben Tagen tatsächlich an welchen Anbieter geroutet haben. Abrechnungsdaten lügen nicht — ausgegebenes Budget und durchlaufender Traffic nähern sich der realen AI-Nutzung stärker als jeder Einzel-Benchmark.

Dieser Leitfaden richtet sich an Entwickler, Tech Leads und Einkauf, die Teams und Management erklären müssen, welche Modelle der Markt wirklich nutzt: (1) warum rollierende Wochen-Tokens Benchmarks schlagen, (2) 28,9 Bio. globales Wochenvolumen und CN/US-Struktur für die Woche bis 2026-05-24, (3) Top-10-Modellliste und DeepSeek-Matrix-Dominanz, (4) das Anthropic-Paradoxon (sinkender Token-Anteil, hoher USD-Umsatz), (5) der a16z-Befund zur inversen Benchmark-Korrelation, (6) eine Sechs-Schritte-Routing-Checkliste plus warum 24/7-Agenten einen Bare-Metal-Cloud-Mac brauchen. Datenquelle: OpenRouter Rankings, 7-Tage-Rolling, Stand 2026-05-24.

01 Warum OpenRouter-Wochenvolumen MMLU-Rankings für Produktion schlägt

OpenRouter aggregiert 300+ Modelle von 60+ Anbietern (OpenAI, Anthropic, Google, DeepSeek u. a.) hinter einer neutralen API. Über 8 Mio. Nutzer verarbeiten monatlich rund 100 Bio. Tokens. Die Rankings summieren Ein- und Ausgabe-Tokens auf 7-Tage-Rolling-Basis und aktualisieren wöchentlich — das direkteste öffentliche Fenster auf „wer wirklich aufgerufen wird".

  • Benchmark misst Obergrenze, Abrechnung misst Default. Labor-Einzelscores erfassen keine Agent-Mehrschritt-Schleifen, Retries oder Tool-Call-Kosten. Die Spitze der Liste sind Flash-Tiers und Open-Source-MoE, nicht Keynote-Flaggschiffe.
  • Herstellerdaten sind schwer vergleichbar. Unterschiedliche Eval-Sets und Inferenz-Stufen. OpenRouter normalisiert Billing und Routing — Wochen-Token-Volumen ist direkt sortierbar.
  • Monatsaggregate verdecken Wochen-Knickpunkte. Neue Modelle (Hy3 Preview, Owl Alpha) explodieren oft zuerst in der WoW-Rate. Nur Quartalsberichte verpassen Routing-Fenster.
  • Token-Anteil und USD-Umsatz divergieren. Teure Closed-Source-Modelle können Umsatz dominieren bei sinkendem Token-Volumen — „Rang 1" allein verzerrt die Budgetstruktur.

Kernaussage: Token-Volumen ist das Thermometer realer AI-Adoption; die Wochen-Auflösung ist das EKG kurzfristiger Marktverschiebungen.

Für Agent-Modellmatrizen und Juni-Snapshot-Auswahl siehe unseren OpenRouter Agent-Auswahl-Leitfaden. Dieser Artikel fokussiert Wochen-Abrechnungsdaten und Anbieter-Umsatzstruktur.

02 28,9 Bio. Wochen-Tokens: globales Volumen und CN/US-Verschiebung

Messzeitraum: 18.–24. Mai 2026 (OpenRouter 7-Tage-Rolling). Globales Plattform-Wochenvolumen: 28,9 Bio. Tokens, +7,4 % WoW, fünfte Woche in Folge im Plus. Vor einem Jahr: ca. 2,4 Bio. — etwa 12× Wachstum YoY. AI-Workloads sind in der Skalierungsphase.

OpenRouter: globale und regionale Wochen-Tokens (18.–24. Mai 2026)
Kennzahl Wert WoW Interpretation
Globales Wochenvolumen 28,9 Bio. Tokens +7,4 % Fünfte Woche Wachstum, Gesamtmarkt expandiert
China-Modelle 9,223 Bio. Tokens +19,89 % Wachstum deutlich über globalem Mittel
US-Modelle 4,93 Bio. Tokens +16,27 % Hohes absolutes Volumen, aber von CN-Wochenvolumen überholt
CN vs. US CN vier Wochen in Folge #1 CN-Anteil Anfang 2025 <2 %, erstmals Feb. 2026 vor US, Mai ~45 %+

Die regionale Verschiebung ist weniger „Nationalität" als Open Source + extrem günstige APIs, die Default-Routen neu setzen: Agenten, Batch und Coding laufen auf DeepSeek Flash, Hy3, MiniMax — westliche Closed-Source-Flaggschiffe bleiben in teuren, niedrig-volumigen Enterprise-Reasoning-Szenarien.

03 Top 10 der Woche bis 24. Mai 2026: wer holt die meisten Tokens?

Modell-Ranking nach Wochen-Tokens (Input + Output). Drei DeepSeek-Modelle in den Top 9; Seriensumme 5,74 Bio. Tokens (+25,9 % WoW), zweite Woche in Folge #1 nach Anbieter-Wochenvolumen — vor Anthropic und Google.

OpenRouter Modell-Wochenranking Top 10 (Stand 2026-05-24)
Rang Modell Anbieter Wochen-Tokens WoW Profil
1 DeepSeek-V4-Flash DeepSeek 3,43T +66 % Agent-Default, Minimalpreis
2 Tencent Hy3 Preview Tencent 3,07T +16 % Starkes Wachstum nach Gratisphase
3 Claude Sonnet 4.6 Anthropic 1,35T 1M Kontext, Enterprise-Coding
4 DeepSeek-V3.2 DeepSeek 1,31T Günstiges Long-Tail, Roleplay
5 Owl Alpha OpenRouter 1,15T +29 % Kostenlos, Agent-spezialisiert, 1M Kontext
6 Gemini 3 Flash Preview Google 1,06T Multimodal, Akademie/Medizin
7 DeepSeek-V4-Pro DeepSeek 1,00T Matrix-Flaggschiff (Serie 5,74T)
8 MiniMax M2.7 MiniMax 806B Langkontext-Preis-Leistung
9 Grok 4.1 Fast xAI 721B 2M Kontext, Legal
10 Step 3.5 Flash StepFun 673B Schnell/günstig, Batch

Auffällig: Kimi K2.6 fiel aus dem Top 10 (Vorwoche Rang 6) — das Wochenranking reagiert extrem auf Rotation. DeepSeek-V4-Flash +66 % WoW und Owl Alpha +29 % zeigen: Agent-Defaults konzentrieren sich auf „minimaler Preis + Langkontext + stabile Tool Calls", nicht auf das teuerste Flaggschiff.

04 Anthropic-Paradoxon: 12 % Tokens, ~46 % USD-Umsatz

OpenRouter liefert neben Modell-Rankings den Anbieter-Vergleich: Token-Anteil vs. USD-Revenue-Anteil. Erst beide Tabellen zusammen zeigen die Schichtung des AI-Markts 2026.

Drei-Schichten-Modell des AI-Markts 2026 (Tokens vs. Zahlungskraft)
Schicht Beispiel Token-Profil Umsatz-Profil Typische Workloads
Hochwert · niedriges Volumen Claude Opus 4.6 Minimaler Token-Anteil Sehr hoher Token-Preis, Millionen-USD/Monat möglich Enterprise-Reasoning, Hochrisiko-Entscheidungen
Mittel · ausgewogen Gemini 3 Flash Mittlerer Token-Anteil Mittlerer Preis, Multimodal-Aufschlag Akademie, Medizin, Multimodal-Analyse
Niedrigpreis · hohes Volumen DeepSeek / MiniMax / StepFun Wochenranking-dominiert, schnellstes Wachstum Niedriger $/Token, Skaleneffekt Agenten, Coding, Batch

Anthropic in Zahlen: ~12 % Token-Anteil (vor einem Jahr ~25 %, fallend), aber ~46 % USD-Revenue-Anteil. Enterprise zahlt weiter Premium für Claude/Opus-Reasoning — die Traffic-Führung liegt bei chinesischen Open-Source-Matrizen und kostenlosen Agent-Modellen. Opus 4.6 kann monatlich einen Bruchteil der DeepSeek-Serie verarbeiten und trotzdem ~25 Mio. USD Umsatz erzielen (öffentliche Schätzungen).

Für Teams: Wochenranking für Default-Modelle; CFO betrachtet Revenue-Anteile für API-Budget-Realität. Beide Kennzahlen sind Pflicht.

05 Inverse Benchmark-Korrelation: a16z-Report und zitierfähige Daten

Der OpenRouter/a16z-Report „2025 AI Usage" (ca. 100 Bio. Tokens anonyme Metadaten) dokumentiert: Benchmark-Scores korrelieren invers mit Marktanteil. Die günstigsten stabilen Modelle absorbieren das meiste Volumen; Eval-Champions bleiben auf Slides.

  • Kosten vor Grenz-Intelligenz. Eine Nacht Agent-Pipeline macht Preisdifferenzen oft wichtiger als kleine Qualitätsunterschiede.
  • Agenten brauchen Stabilität und Latenz. Ein fehlgeschlagener Tool-Call kostet mehr als +2 MMLU-Punkte theoretisch einbringen.
  • Coding ist die größte Einzelkategorie. Von ~11 % Anfang 2025 auf 50 %+ Plattform-Traffic — erklärt DeepSeek Flash und Sonnet 4.6 in der Spitze.

Zitierfähige Daten (öffentliche Quellen zum Redaktionszeitpunkt; vor Routing OpenRouter live prüfen):

  • Globales Wochenvolumen: 28,9 Bio. Tokens (18.–24. Mai 2026), +7,4 % WoW, ~12× YoY.
  • DeepSeek-Serie: 5,74 Bio. Tokens/Woche, +25,9 % WoW; V4-Flash allein 3,43T, +66 % WoW.
  • CN vs. US: 9,223T (+19,89 %) vs. 4,93T (+16,27 %); CN vier Wochen #1.
  • Anthropic dual: ~12 % Tokens vs. ~46 % USD-Revenue; vor einem Jahr ~25 % Tokens.
  • Coding-Anteil: OpenRouter/a16z: 11 % → 50 %+, größte Einzelkategorie.

Fazit: Abrechnungszahlen sind ehrlicher als jedes Eval-Ranking. Das Wochenranking ist das kostengünstigste Hochfrequenz-Signal für Routing-Anpassungen.

06 Sechs-Schritte-Checkliste: Wochenranking tracken und routen

  1. Wöchentlich montags prüfen: openrouter.ai/rankings — Top 10 mit WoW notieren; Neueintritte oder >30 % WoW → 1h-Smoke-Test.
  2. Default vs. Upgrade trennen: 80 % Agent-Schritte auf DeepSeek-V4-Flash oder Sonnet 4.6; nur nach zwei Fehlern oder high-risk → V4-Pro / Opus.
  3. Token- und USD-Tabellen vergleichen: Für Finance beide Anbieter-Anteile screenshotten — „Volumen #1" ≠ „größtes Budget".
  4. Nach Szenario wählen, nicht nach Keynote: Agent/Batch → Flash; komplexes Enterprise-Reasoning → Opus; Multimodal → Gemini Flash; Hy3 und Owl Alpha beobachten.
  5. Spend Limits und Wochenreport: Monats-Cap pro OpenRouter-Projekt-Key; wöchentlicher Export vs. Ranking-Shift — eigene Route hinter dem Markt?
  6. 24/7-Host deployen: API Keys, Routing, launchd auf dediziertem Mac persistieren; Laptop-Zuklappen bricht Long-Running-Agenten ab — Bare-Metal-macOS nötig (siehe OpenClaw Remote-Mac-Troubleshooting).

Routing allein löst nicht „wer führt den Agenten aus": Privat-Mac offline = Pipeline stoppt; überverkaufte VPS oft ohne echtes macOS/Metal/TCC; SSH-Jitter unterbricht Tool-Schleifen; Team-Maschinen erschweren Key-Rotation und CLI-Versionen.

Für Teams mit Cursor Agent, OpenClaw Gateway und iOS CI parallel: JEXCLOUD Multi-Region Bare-Metal Mac — dediziertes Apple Silicon, echtes macOS, 120-Sekunden-Bereitstellung, monatliche flexible Miete. Modell-Kosten über OpenRouter; Maschine und Routing getrennt. Spezifikationen: Preisseite, Onboarding: Hilfezentrum.