OpenRouter 最新模型周调用量排行: 账单数据不会说谎,谁才是真正的王者?
当 MMLU、HumanEval 在发布会上争「谁更聪明」时,OpenRouter 周调用量排行榜记录的是另一件事:开发者与企业在过去 7 天里,究竟把多少万亿 Token 交给了谁。账单不会说谎——花出去的钱与跑出去的流量,比任何单次 Benchmark 更接近 AI 真实落地。
本文面向需要向团队或管理层解释「市场真正在用什么模型」的开发者、Tech Lead 与采购决策者:① 说明为何周滚动 Token 数据比评测榜更可信;② 解读截至 2026 年 5 月 24 日一周的 28.9 万亿全球总量与中美格局;③ 给出当周 Top 10 模型周榜与 DeepSeek 矩阵称霸逻辑;④ 拆解 Anthropic「Token 份额下滑、美元收入仍高」的溢价悖论;⑤ 引用 a16z 联合报告中的反常识结论;⑥ 提供六步 OpenRouter 路由落地清单,并说明 7×24 Agent 宿主为何应搭配裸金属云端 Mac。数据口径:OpenRouter Rankings 按周(7 天滚动)统计,截止 2026-05-24。
01 为什么 OpenRouter 周调用量比 MMLU 排行榜更可信?
OpenRouter 是全球最大的中立 AI 模型 API 聚合平台之一:接入 300+ 模型、覆盖 OpenAI、Anthropic、Google、DeepSeek 等 60+ 供应商,平台用户超 800 万,月处理 Token 约 100 万亿。其 Rankings 页按周(7 天滚动)汇总输入+输出 Token 吞吐量,每周更新——这是观察「谁在被真实调用」最直接的公开窗口。
- 痛点一:Benchmark 测的是上限,账单测的是默认。实验室单次问答分数无法反映 Agent 多步循环、失败重试与工具调用的真实成本;排行榜前列往往是 Flash 档与开源 MoE,而非发布会上的 Opus 旗舰。
- 痛点二:厂商自报数据难横向对比。各家用不同评测集、不同推理档位;OpenRouter 在同一计费与路由层聚合,让跨模型「周 Token 量」可直接排序。
- 痛点三:月度总量掩盖周级拐点。新模型(如 Hy3 Preview、Owl Alpha)往往在单周环比中先爆发;只看季度报告会错过路由策略调整窗口。
- 痛点四:Token 份额与美元收入可以背离。高价闭源模型 Token 占比下降,仍可能占据收入大头——采购若只看「谁排名第一」会误判预算结构。
核心论点:Token 调用量是衡量 AI 真实落地与市场认可度的体温计;周滚动口径则像心电图,能捕捉短期风向突变。
若你更关注 Agent 场景下的模型能力矩阵与 6 月快照选型,可对照本站 OpenRouter 排行榜 Agent 选型指南;本文聚焦周账单数据与厂商商业结构。
02 28.9 万亿周 Token:全球总量与中美格局怎么变?
统计周期:2026 年 5 月 18 日—5 月 24 日(OpenRouter 官方按周滚动口径)。该周全球平台周调用量达 28.9 万亿 Token,环比 +7.4%,连续第五周上涨;一年前同口径约 2.4 万亿,一年增长约 12 倍,AI 应用已进入规模化爆发阶段。
| 指标 | 数值 | 环比 | 解读 |
|---|---|---|---|
| 全球周调用量 | 28.9 万亿 Token | +7.4% | 连续五周上涨,平台总盘子仍在扩张 |
| 中国模型周调用量 | 9.223 万亿 Token | +19.89% | 增速显著高于全球均值 |
| 美国模型周调用量 | 4.93 万亿 Token | +16.27% | 绝对量仍大,但已被中国模型周量反超 |
| 中国 vs 美国 | 中国连续四周居首 | — | 2025 年初中国模型流量占比 <2%,2026 年 2 月首次超美,5 月约 45%+ |
区域格局的意义不在于「国籍标签」,而在于开源 + 极低价 API 组合正在重塑默认路由:开发者把海量 Agent、批处理与编程任务压到 DeepSeek Flash、Hy3、MiniMax 等档位,而西方闭源旗舰更多留在高单价、低 Token 的企业复杂推理场景。
03 2026 年 5 月第四周 Top 10:谁拿走了最多周 Token?
下表为当周按模型维度的周 Token 排行(输入+输出合计)。DeepSeek 三款模型同时进入前九,系列合计约 5.74 万亿 Token(环比 +25.9%),连续两周位居厂商周调用量第一,超越 Anthropic 与 Google。
| 排名 | 模型 | 厂商 | 周 Token 量 | 环比 | 特点 |
|---|---|---|---|---|---|
| 1 | DeepSeek-V4-Flash | DeepSeek | 3.43T | +66% | Agent 工作流首选,极低价格 |
| 2 | 腾讯 Hy3 Preview | Tencent | 3.07T | +16% | 限免结束后仍高增长 |
| 3 | Claude Sonnet 4.6 | Anthropic | 1.35T | — | 百万上下文,企业编程主力 |
| 4 | DeepSeek-V3.2 | DeepSeek | 1.31T | — | 低价长尾,角色扮演活跃 |
| 5 | Owl Alpha | OpenRouter | 1.15T | +29% | 免费 Agent 特化,百万上下文 |
| 6 | Gemini 3 Flash Preview | 1.06T | — | 多模态,学术/医疗场景 | |
| 7 | DeepSeek-V4-Pro | DeepSeek | 1.00T | — | 矩阵旗舰(系列合计 5.74T) |
| 8 | MiniMax M2.7 | MiniMax | 806B | — | 长上下文性价比 |
| 9 | Grok 4.1 Fast | xAI | 721B | — | 2M 上下文,法律场景 |
| 10 | Step 3.5 Flash | StepFun | 673B | — | 快速低价,批处理 |
当周 notable 变化:Kimi K2.6 前一周曾排名第 6,该周跌出前十——说明周榜对「爆款轮动」极其敏感。榜首 DeepSeek-V4-Flash 单周 +66% 与 Owl Alpha +29% 表明:Agent 默认路由正加速向「极低价 + 长上下文 + 工具调用稳定」集中,而非向最贵旗舰集中。
04 Anthropic 溢价悖论:Token 份额下滑,为何美元收入仍近半?
OpenRouter 除模型周榜外,还提供厂商维度的 Token 份额与美元收入份额对比——两张表叠在一起,才能看清 2026 年 AI 市场的分层结构。
| 分层 | 代表模型 | Token 特征 | 收入特征 | 典型场景 |
|---|---|---|---|---|
| 高价值·低流量 | Claude Opus 4.6 | Token 占比极小 | 单价极高,月收入可达数千万美元级 | 企业复杂推理、高风险决策 |
| 性价比·中流量 | Gemini 3 Flash | 中等 Token 占比 | 中等单价,多模态溢价 | 学术、医疗、多模态分析 |
| 极低价·高流量 | DeepSeek / MiniMax / StepFun | 周榜主导,增速最快 | 单 Token 收入低,靠规模取胜 | Agent、编程、批处理 |
Anthropic 的「溢价悖论」在周数据上尤为刺眼:Token 份额约 12%(一年前约 25%,持续下滑),但美元收入份额仍约 46%。解读很简单——企业级用户仍为 Claude 付高价,尤其 Opus 档用于复杂推理;然而流量主导权已让给中国开源矩阵与免费 Agent 模型。Claude Opus 4.6 月 Token 量可能只有 DeepSeek 系列的零头,但月收入仍可达约 2500 万美元量级(公开报道口径)。
对开发者的启示:个人或小团队看周榜选默认模型;企业 CFO 看收入份额理解「谁从 API 赚到钱」。两张表缺一不可。
05 基准测试与市场份额反比?a16z 报告与可引用硬数据
OpenRouter 与 a16z 联合发布的《2025 AI 使用报告》(基于约 100 万亿 Token匿名元数据)指出一个反常识结论:模型 Benchmark 分数与其实际市场份额几乎呈反比。榜单上最「便宜、够稳」的模型吸走最多流量;评测冠军往往停留在发布会幻灯片里。
- 原因一:开发者优先推理成本,而非极限智商。Agent 流水线跑一夜,价差可比能力差更致命。
- 原因二:Agent 更依赖稳定性与 API 延迟。工具调用失败一次的重试成本,高于 MMLU 高 2 分的理论收益。
- 原因三:编程已成最大单一用途。编程相关任务占平台流量从 2025 年初约 11% 升至超 50%——这解释了 DeepSeek Flash、Sonnet 4.6 为何长期霸榜。
可引用技术数据(撰写时公开资料,路由前请复核 OpenRouter 实时页):
- 全球周调用量:28.9 万亿 Token(2026-05-18 至 05-24),环比 +7.4%,同比一年前约 12 倍。
- DeepSeek 系列周合计:5.74 万亿 Token,环比 +25.9%;V4-Flash 单模型 3.43T,单周 +66%。
- 中美周调用对比:中国模型 9.223T(+19.89%)vs 美国模型 4.93T(+16.27%);中国连续四周周量第一。
- Anthropic 双重指标:Token 份额约 12% vs 美元收入份额约 46%;一年前 Token 份额约 25%。
- 编程任务占比:OpenRouter + a16z 报告:从 2025 年初 11% 升至 50%+,为平台最大单一用途类别。
结论重申:账单上的数字,比任何评测榜单都诚实。周榜则是调整 OpenRouter 路由策略最高频、最低成本的信号源。
06 六步 OpenRouter 周榜跟踪与路由落地清单
- 固定每周一看榜:打开 openrouter.ai/rankings,记录 Top 10 模型周 Token 与环比;新入榜或环比 >30% 的模型优先做 1 小时冒烟测试。
- 分离「默认」与「升级」路由:80% Agent 步骤指向 DeepSeek-V4-Flash 或 Sonnet 4.6;仅失败两次或任务标记 high-risk 时升至 V4-Pro / Opus。
- 对照 Token 与美元两张表:向财务汇报时同时截取厂商 Token 份额与 revenue 份额,避免「用量第一」与「预算最大」混淆。
- 按场景而非发布会选型:Agent/批处理 → Flash 档;企业复杂推理 → Opus;多模态 → Gemini Flash;关注 Hy3、Owl Alpha 等新进高增速模型。
- 设置 spend limit 与周报:在 OpenRouter 项目级 Key 配置月度上限;每周导出用量,与周榜排名变化交叉验证自己的路由是否落后市场。
- 部署 7×24 宿主:将 API Key、路由配置与 launchd 单元写入专用 Mac;笔记本合盖会打断长程 Agent,需裸金属 macOS 常驻(可参考 OpenClaw 远程 Mac 排障文)。
只看周榜改路由,解决不了「谁来跑 Agent」:个人 Mac 关机即断流;超卖 VPS 常非官方 macOS,Metal 与 TCC 无保障,SSH 抖动会打断多步工具循环;团队共用机器则密钥轮换与 CLI 版本难以统一。
对需要同时跑 Cursor Agent、OpenClaw Gateway 与 iOS CI 的团队,JEXCLOUD 多区域裸金属 Mac 是更稳的生产宿主:独占 Apple Silicon、真 macOS、120 秒交付、按月弹性租期;模型账单仍走 OpenRouter,机器与路由分层清晰。规格见 定价页,接入见 帮助中心。