OpenRouter Wochen-Token-Rankings: Abrechnungsdaten lügen nicht — wer führt wirklich?
Während MMLU und HumanEval auf Keynotes um „Intelligenz" ringen, misst das OpenRouter-Wochenranking etwas anderes: wie viele Billionen Tokens Entwickler und Unternehmen in den letzten sieben Tagen tatsächlich an welchen Anbieter geroutet haben. Abrechnungsdaten lügen nicht — ausgegebenes Budget und durchlaufender Traffic nähern sich der realen AI-Nutzung stärker als jeder Einzel-Benchmark.
Dieser Leitfaden richtet sich an Entwickler, Tech Leads und Einkauf, die Teams und Management erklären müssen, welche Modelle der Markt wirklich nutzt: (1) warum rollierende Wochen-Tokens Benchmarks schlagen, (2) 28,9 Bio. globales Wochenvolumen und CN/US-Struktur für die Woche bis 2026-05-24, (3) Top-10-Modellliste und DeepSeek-Matrix-Dominanz, (4) das Anthropic-Paradoxon (sinkender Token-Anteil, hoher USD-Umsatz), (5) der a16z-Befund zur inversen Benchmark-Korrelation, (6) eine Sechs-Schritte-Routing-Checkliste plus warum 24/7-Agenten einen Bare-Metal-Cloud-Mac brauchen. Datenquelle: OpenRouter Rankings, 7-Tage-Rolling, Stand 2026-05-24.
01 Warum OpenRouter-Wochenvolumen MMLU-Rankings für Produktion schlägt
OpenRouter aggregiert 300+ Modelle von 60+ Anbietern (OpenAI, Anthropic, Google, DeepSeek u. a.) hinter einer neutralen API. Über 8 Mio. Nutzer verarbeiten monatlich rund 100 Bio. Tokens. Die Rankings summieren Ein- und Ausgabe-Tokens auf 7-Tage-Rolling-Basis und aktualisieren wöchentlich — das direkteste öffentliche Fenster auf „wer wirklich aufgerufen wird".
- Benchmark misst Obergrenze, Abrechnung misst Default. Labor-Einzelscores erfassen keine Agent-Mehrschritt-Schleifen, Retries oder Tool-Call-Kosten. Die Spitze der Liste sind Flash-Tiers und Open-Source-MoE, nicht Keynote-Flaggschiffe.
- Herstellerdaten sind schwer vergleichbar. Unterschiedliche Eval-Sets und Inferenz-Stufen. OpenRouter normalisiert Billing und Routing — Wochen-Token-Volumen ist direkt sortierbar.
- Monatsaggregate verdecken Wochen-Knickpunkte. Neue Modelle (Hy3 Preview, Owl Alpha) explodieren oft zuerst in der WoW-Rate. Nur Quartalsberichte verpassen Routing-Fenster.
- Token-Anteil und USD-Umsatz divergieren. Teure Closed-Source-Modelle können Umsatz dominieren bei sinkendem Token-Volumen — „Rang 1" allein verzerrt die Budgetstruktur.
Kernaussage: Token-Volumen ist das Thermometer realer AI-Adoption; die Wochen-Auflösung ist das EKG kurzfristiger Marktverschiebungen.
Für Agent-Modellmatrizen und Juni-Snapshot-Auswahl siehe unseren OpenRouter Agent-Auswahl-Leitfaden. Dieser Artikel fokussiert Wochen-Abrechnungsdaten und Anbieter-Umsatzstruktur.
02 28,9 Bio. Wochen-Tokens: globales Volumen und CN/US-Verschiebung
Messzeitraum: 18.–24. Mai 2026 (OpenRouter 7-Tage-Rolling). Globales Plattform-Wochenvolumen: 28,9 Bio. Tokens, +7,4 % WoW, fünfte Woche in Folge im Plus. Vor einem Jahr: ca. 2,4 Bio. — etwa 12× Wachstum YoY. AI-Workloads sind in der Skalierungsphase.
| Kennzahl | Wert | WoW | Interpretation |
|---|---|---|---|
| Globales Wochenvolumen | 28,9 Bio. Tokens | +7,4 % | Fünfte Woche Wachstum, Gesamtmarkt expandiert |
| China-Modelle | 9,223 Bio. Tokens | +19,89 % | Wachstum deutlich über globalem Mittel |
| US-Modelle | 4,93 Bio. Tokens | +16,27 % | Hohes absolutes Volumen, aber von CN-Wochenvolumen überholt |
| CN vs. US | CN vier Wochen in Folge #1 | — | CN-Anteil Anfang 2025 <2 %, erstmals Feb. 2026 vor US, Mai ~45 %+ |
Die regionale Verschiebung ist weniger „Nationalität" als Open Source + extrem günstige APIs, die Default-Routen neu setzen: Agenten, Batch und Coding laufen auf DeepSeek Flash, Hy3, MiniMax — westliche Closed-Source-Flaggschiffe bleiben in teuren, niedrig-volumigen Enterprise-Reasoning-Szenarien.
03 Top 10 der Woche bis 24. Mai 2026: wer holt die meisten Tokens?
Modell-Ranking nach Wochen-Tokens (Input + Output). Drei DeepSeek-Modelle in den Top 9; Seriensumme 5,74 Bio. Tokens (+25,9 % WoW), zweite Woche in Folge #1 nach Anbieter-Wochenvolumen — vor Anthropic und Google.
| Rang | Modell | Anbieter | Wochen-Tokens | WoW | Profil |
|---|---|---|---|---|---|
| 1 | DeepSeek-V4-Flash | DeepSeek | 3,43T | +66 % | Agent-Default, Minimalpreis |
| 2 | Tencent Hy3 Preview | Tencent | 3,07T | +16 % | Starkes Wachstum nach Gratisphase |
| 3 | Claude Sonnet 4.6 | Anthropic | 1,35T | — | 1M Kontext, Enterprise-Coding |
| 4 | DeepSeek-V3.2 | DeepSeek | 1,31T | — | Günstiges Long-Tail, Roleplay |
| 5 | Owl Alpha | OpenRouter | 1,15T | +29 % | Kostenlos, Agent-spezialisiert, 1M Kontext |
| 6 | Gemini 3 Flash Preview | 1,06T | — | Multimodal, Akademie/Medizin | |
| 7 | DeepSeek-V4-Pro | DeepSeek | 1,00T | — | Matrix-Flaggschiff (Serie 5,74T) |
| 8 | MiniMax M2.7 | MiniMax | 806B | — | Langkontext-Preis-Leistung |
| 9 | Grok 4.1 Fast | xAI | 721B | — | 2M Kontext, Legal |
| 10 | Step 3.5 Flash | StepFun | 673B | — | Schnell/günstig, Batch |
Auffällig: Kimi K2.6 fiel aus dem Top 10 (Vorwoche Rang 6) — das Wochenranking reagiert extrem auf Rotation. DeepSeek-V4-Flash +66 % WoW und Owl Alpha +29 % zeigen: Agent-Defaults konzentrieren sich auf „minimaler Preis + Langkontext + stabile Tool Calls", nicht auf das teuerste Flaggschiff.
04 Anthropic-Paradoxon: 12 % Tokens, ~46 % USD-Umsatz
OpenRouter liefert neben Modell-Rankings den Anbieter-Vergleich: Token-Anteil vs. USD-Revenue-Anteil. Erst beide Tabellen zusammen zeigen die Schichtung des AI-Markts 2026.
| Schicht | Beispiel | Token-Profil | Umsatz-Profil | Typische Workloads |
|---|---|---|---|---|
| Hochwert · niedriges Volumen | Claude Opus 4.6 | Minimaler Token-Anteil | Sehr hoher Token-Preis, Millionen-USD/Monat möglich | Enterprise-Reasoning, Hochrisiko-Entscheidungen |
| Mittel · ausgewogen | Gemini 3 Flash | Mittlerer Token-Anteil | Mittlerer Preis, Multimodal-Aufschlag | Akademie, Medizin, Multimodal-Analyse |
| Niedrigpreis · hohes Volumen | DeepSeek / MiniMax / StepFun | Wochenranking-dominiert, schnellstes Wachstum | Niedriger $/Token, Skaleneffekt | Agenten, Coding, Batch |
Anthropic in Zahlen: ~12 % Token-Anteil (vor einem Jahr ~25 %, fallend), aber ~46 % USD-Revenue-Anteil. Enterprise zahlt weiter Premium für Claude/Opus-Reasoning — die Traffic-Führung liegt bei chinesischen Open-Source-Matrizen und kostenlosen Agent-Modellen. Opus 4.6 kann monatlich einen Bruchteil der DeepSeek-Serie verarbeiten und trotzdem ~25 Mio. USD Umsatz erzielen (öffentliche Schätzungen).
Für Teams: Wochenranking für Default-Modelle; CFO betrachtet Revenue-Anteile für API-Budget-Realität. Beide Kennzahlen sind Pflicht.
05 Inverse Benchmark-Korrelation: a16z-Report und zitierfähige Daten
Der OpenRouter/a16z-Report „2025 AI Usage" (ca. 100 Bio. Tokens anonyme Metadaten) dokumentiert: Benchmark-Scores korrelieren invers mit Marktanteil. Die günstigsten stabilen Modelle absorbieren das meiste Volumen; Eval-Champions bleiben auf Slides.
- Kosten vor Grenz-Intelligenz. Eine Nacht Agent-Pipeline macht Preisdifferenzen oft wichtiger als kleine Qualitätsunterschiede.
- Agenten brauchen Stabilität und Latenz. Ein fehlgeschlagener Tool-Call kostet mehr als +2 MMLU-Punkte theoretisch einbringen.
- Coding ist die größte Einzelkategorie. Von ~11 % Anfang 2025 auf 50 %+ Plattform-Traffic — erklärt DeepSeek Flash und Sonnet 4.6 in der Spitze.
Zitierfähige Daten (öffentliche Quellen zum Redaktionszeitpunkt; vor Routing OpenRouter live prüfen):
- Globales Wochenvolumen: 28,9 Bio. Tokens (18.–24. Mai 2026), +7,4 % WoW, ~12× YoY.
- DeepSeek-Serie: 5,74 Bio. Tokens/Woche, +25,9 % WoW; V4-Flash allein 3,43T, +66 % WoW.
- CN vs. US: 9,223T (+19,89 %) vs. 4,93T (+16,27 %); CN vier Wochen #1.
- Anthropic dual: ~12 % Tokens vs. ~46 % USD-Revenue; vor einem Jahr ~25 % Tokens.
- Coding-Anteil: OpenRouter/a16z: 11 % → 50 %+, größte Einzelkategorie.
Fazit: Abrechnungszahlen sind ehrlicher als jedes Eval-Ranking. Das Wochenranking ist das kostengünstigste Hochfrequenz-Signal für Routing-Anpassungen.
06 Sechs-Schritte-Checkliste: Wochenranking tracken und routen
- Wöchentlich montags prüfen: openrouter.ai/rankings — Top 10 mit WoW notieren; Neueintritte oder >30 % WoW → 1h-Smoke-Test.
- Default vs. Upgrade trennen: 80 % Agent-Schritte auf DeepSeek-V4-Flash oder Sonnet 4.6; nur nach zwei Fehlern oder high-risk → V4-Pro / Opus.
- Token- und USD-Tabellen vergleichen: Für Finance beide Anbieter-Anteile screenshotten — „Volumen #1" ≠ „größtes Budget".
- Nach Szenario wählen, nicht nach Keynote: Agent/Batch → Flash; komplexes Enterprise-Reasoning → Opus; Multimodal → Gemini Flash; Hy3 und Owl Alpha beobachten.
- Spend Limits und Wochenreport: Monats-Cap pro OpenRouter-Projekt-Key; wöchentlicher Export vs. Ranking-Shift — eigene Route hinter dem Markt?
- 24/7-Host deployen: API Keys, Routing, launchd auf dediziertem Mac persistieren; Laptop-Zuklappen bricht Long-Running-Agenten ab — Bare-Metal-macOS nötig (siehe OpenClaw Remote-Mac-Troubleshooting).
Routing allein löst nicht „wer führt den Agenten aus": Privat-Mac offline = Pipeline stoppt; überverkaufte VPS oft ohne echtes macOS/Metal/TCC; SSH-Jitter unterbricht Tool-Schleifen; Team-Maschinen erschweren Key-Rotation und CLI-Versionen.
Für Teams mit Cursor Agent, OpenClaw Gateway und iOS CI parallel: JEXCLOUD Multi-Region Bare-Metal Mac — dediziertes Apple Silicon, echtes macOS, 120-Sekunden-Bereitstellung, monatliche flexible Miete. Modell-Kosten über OpenRouter; Maschine und Routing getrennt. Spezifikationen: Preisseite, Onboarding: Hilfezentrum.