OpenRouter 最新模型週呼叫量排行: 帳單資料不會說謊,誰才是真正的王者?
當 MMLU、HumanEval 在發表會上爭「誰更聰明」時,OpenRouter 週呼叫量排行榜記錄的是另一件事:開發者與企業在過去 7 天裡,究竟把多少萬億 Token 交給了誰。帳單不會說謊——花出去的錢與跑出去的流量,比任何單次 Benchmark 更接近 AI 真實落地。
本文面向需要向團隊或管理層解釋「市場真正在用什麼模型」的開發者、Tech Lead 與採購決策者:① 說明為何按週滾動 Token 資料比評測榜更可信;② 解讀截至 2026 年 5 月 24 日一週的 28.9 萬億全球總量與中美格局;③ 給出當週 Top 10 模型週榜與 DeepSeek 矩陣稱霸邏輯;④ 拆解 Anthropic「Token 份額下滑、美元收入仍高」的溢價悖論;⑤ 引用 a16z 聯合報告中的反直覺結論;⑥ 提供六步 OpenRouter 路由落地清單,並說明 7×24 Agent 宿主為何應搭配裸金屬雲端 Mac。資料口徑:OpenRouter Rankings 按週(7 天滾動)統計,截止 2026-05-24。
01 為什麼 OpenRouter 週呼叫量比 MMLU 排行榜更可信?
OpenRouter 是全球最大的中立 AI 模型 API 聚合平台之一:接入 300+ 模型、涵蓋 OpenAI、Anthropic、Google、DeepSeek 等 60+ 供應商,平台使用者超 800 萬,月處理 Token 約 100 萬億。其 Rankings 頁按週(7 天滾動)彙總輸入+輸出 Token 吞吐量,每週更新——這是觀察「誰在被真實呼叫」最直接的公開視窗。
- 痛點一:Benchmark 測的是上限,帳單測的是預設。實驗室單次問答分數無法反映 Agent 多步迴圈、失敗重試與工具呼叫的真實成本;排行榜前列往往是 Flash 檔與開源 MoE,而非發表會上的 Opus 旗艦。
- 痛點二:廠商自報資料難橫向對比。各家用不同評測集、不同推理檔位;OpenRouter 在同一計費與路由層聚合,讓跨模型「週 Token 量」可直接排序。
- 痛點三:月度總量掩蓋週級拐點。新模型(如 Hy3 Preview、Owl Alpha)往往在單週環比中先爆發;只看季度報告會錯過路由策略調整視窗。
- 痛點四:Token 份額與美元收入可以背離。高價閉源模型 Token 佔比下降,仍可能佔據收入大頭——採購若只看「誰排名第一」會誤判預算結構。
核心論點:Token 呼叫量是衡量 AI 真實落地與市場認可度的體溫計;週滾動口徑則像心電圖,能捕捉短期風向突變。
若你更關注 Agent 場景下的模型能力矩陣與 6 月快照選型,可對照本站 OpenRouter 排行榜 Agent 選型指南;本文聚焦週帳單資料與廠商商業結構。
02 28.9 萬億週 Token:全球總量與中美格局怎麼變?
統計週期:2026 年 5 月 18 日—5 月 24 日(OpenRouter 官方按週滾動口徑)。該週全球平台週呼叫量達 28.9 萬億 Token,環比 +7.4%,連續第五週上漲;一年前同口徑約 2.4 萬億,一年成長約 12 倍,AI 應用已進入規模化爆發階段。
| 指標 | 數值 | 環比 | 解讀 |
|---|---|---|---|
| 全球週呼叫量 | 28.9 萬億 Token | +7.4% | 連續五週上漲,平台總盤子仍在擴張 |
| 中國模型週呼叫量 | 9.223 萬億 Token | +19.89% | 增速顯著高於全球均值 |
| 美國模型週呼叫量 | 4.93 萬億 Token | +16.27% | 絕對量仍大,但已被中國模型週量反超 |
| 中國 vs 美國 | 中國連續四週居首 | — | 2025 年初中國模型流量佔比 <2%,2026 年 2 月首次超美,5 月約 45%+ |
區域格局的意義不在於「國籍標籤」,而在於開源 + 極低價 API 組合正在重塑預設路由:開發者把海量 Agent、批次處理與程式設計任務壓到 DeepSeek Flash、Hy3、MiniMax 等檔位,而西方閉源旗艦更多留在高單價、低 Token 的企業複雜推理場景。
03 2026 年 5 月第四週 Top 10:誰拿走了最多週 Token?
下表為當週按模型維度的週 Token 排行(輸入+輸出合計)。DeepSeek 三款模型同時進入前九,系列合計約 5.74 萬億 Token(環比 +25.9%),連續兩週位居廠商週呼叫量第一,超越 Anthropic 與 Google。
| 排名 | 模型 | 廠商 | 週 Token 量 | 環比 | 特點 |
|---|---|---|---|---|---|
| 1 | DeepSeek-V4-Flash | DeepSeek | 3.43T | +66% | Agent 工作流首選,極低價格 |
| 2 | 騰訊 Hy3 Preview | Tencent | 3.07T | +16% | 限免結束後仍高成長 |
| 3 | Claude Sonnet 4.6 | Anthropic | 1.35T | — | 百萬上下文,企業程式設計主力 |
| 4 | DeepSeek-V3.2 | DeepSeek | 1.31T | — | 低價長尾,角色扮演活躍 |
| 5 | Owl Alpha | OpenRouter | 1.15T | +29% | 免費 Agent 特化,百萬上下文 |
| 6 | Gemini 3 Flash Preview | 1.06T | — | 多模態,學術/醫療場景 | |
| 7 | DeepSeek-V4-Pro | DeepSeek | 1.00T | — | 矩陣旗艦(系列合計 5.74T) |
| 8 | MiniMax M2.7 | MiniMax | 806B | — | 長上下文性價比 |
| 9 | Grok 4.1 Fast | xAI | 721B | — | 2M 上下文,法律場景 |
| 10 | Step 3.5 Flash | StepFun | 673B | — | 快速低價,批次處理 |
當週 notable 變化:Kimi K2.6 前一週曾排名第 6,該週跌出前十——說明週榜對「爆款輪動」極其敏感。榜首 DeepSeek-V4-Flash 單週 +66% 與 Owl Alpha +29% 表明:Agent 預設路由正加速向「極低價 + 長上下文 + 工具呼叫穩定」集中,而非向最貴旗艦集中。
04 Anthropic 溢價悖論:Token 份額下滑,為何美元收入仍近半?
OpenRouter 除模型週榜外,還提供廠商維度的 Token 份額與美元收入份額對比——兩張表疊在一起,才能看清 2026 年 AI 市場的分層結構。
| 分層 | 代表模型 | Token 特徵 | 收入特徵 | 典型場景 |
|---|---|---|---|---|
| 高價值·低流量 | Claude Opus 4.6 | Token 佔比極小 | 單價極高,月收入可達數千萬美元級 | 企業複雜推理、高風險決策 |
| 性價比·中流量 | Gemini 3 Flash | 中等 Token 佔比 | 中等單價,多模態溢價 | 學術、醫療、多模態分析 |
| 極低價·高流量 | DeepSeek / MiniMax / StepFun | 週榜主導,增速最快 | 單 Token 收入低,靠規模取勝 | Agent、程式設計、批次處理 |
Anthropic 的「溢價悖論」在週資料上尤為刺眼:Token 份額約 12%(一年前約 25%,持續下滑),但美元收入份額仍約 46%。解讀很簡單——企業級使用者仍為 Claude 付高價,尤其 Opus 檔用於複雜推理;然而流量主導權已讓給中國開源矩陣與免費 Agent 模型。Claude Opus 4.6 月 Token 量可能只有 DeepSeek 系列的零頭,但月收入仍可達約 2500 萬美元量級(公開報導口徑)。
對開發者的啟示:個人或小團隊看週榜選預設模型;企業 CFO 看收入份額理解「誰從 API 賺到錢」。兩張表缺一不可。
05 基準測試與市場份額反比?a16z 報告與可引用硬資料
OpenRouter 與 a16z 聯合發布的《2025 AI 使用報告》(基於約 100 萬億 Token匿名元資料)指出一個反直覺結論:模型 Benchmark 分數與其實際市場份額幾乎呈反比。榜單上最「便宜、夠穩」的模型吸走最多流量;評測冠軍往往停留在發表會投影片裡。
- 原因一:開發者優先推理成本,而非極限智商。Agent 流水線跑一夜,價差可比能力差更致命。
- 原因二:Agent 更依賴穩定性與 API 延遲。工具呼叫失敗一次的重試成本,高於 MMLU 高 2 分的理論收益。
- 原因三:程式設計已成最大單一用途。程式設計相關任務佔平台流量從 2025 年初約 11% 升至超 50%——這解釋了 DeepSeek Flash、Sonnet 4.6 為何長期霸榜。
可引用技術資料(撰寫時公開資料,路由前請複核 OpenRouter 即時頁):
- 全球週呼叫量:28.9 萬億 Token(2026-05-18 至 05-24),環比 +7.4%,同比一年前約 12 倍。
- DeepSeek 系列週合計:5.74 萬億 Token,環比 +25.9%;V4-Flash 單模型 3.43T,單週 +66%。
- 中美週呼叫對比:中國模型 9.223T(+19.89%)vs 美國模型 4.93T(+16.27%);中國連續四週週量第一。
- Anthropic 雙重指標:Token 份額約 12% vs 美元收入份額約 46%;一年前 Token 份額約 25%。
- 程式設計任務佔比:OpenRouter + a16z 報告:從 2025 年初 11% 升至 50%+,為平台最大單一用途類別。
結論重申:帳單上的數字,比任何評測榜單都誠實。週榜則是調整 OpenRouter 路由策略最高頻、最低成本的訊號源。
06 六步 OpenRouter 週榜追蹤與路由落地清單
- 固定每週一看榜:打開 openrouter.ai/rankings,記錄 Top 10 模型週 Token 與環比;新入榜或環比 >30% 的模型優先做 1 小時冒煙測試。
- 分離「預設」與「升級」路由:80% Agent 步驟指向 DeepSeek-V4-Flash 或 Sonnet 4.6;僅失敗兩次或任務標記 high-risk 時升至 V4-Pro / Opus。
- 對照 Token 與美元兩張表:向財務匯報時同時截取廠商 Token 份額與 revenue 份額,避免「用量第一」與「預算最大」混淆。
- 按場景而非發表會選型:Agent/批次處理 → Flash 檔;企業複雜推理 → Opus;多模態 → Gemini Flash;關注 Hy3、Owl Alpha 等新進高增速模型。
- 設定 spend limit 與週報:在 OpenRouter 專案級 Key 設定月度上限;每週匯出用量,與週榜排名變化交叉驗證自己的路由是否落後市場。
- 部署 7×24 宿主:將 API Key、路由設定與 launchd 單元寫入專用 Mac;筆電合蓋會打斷長程 Agent,需裸金屬 macOS 常駐(可參考 OpenClaw 遠端 Mac 排障文)。
只看週榜改路由,解決不了「誰來跑 Agent」:個人 Mac 關機即斷流;超賣 VPS 常非官方 macOS,Metal 與 TCC 無保障,SSH 抖動會打斷多步工具迴圈;團隊共用機器則金鑰輪換與 CLI 版本難以統一。
對需要同時跑 Cursor Agent、OpenClaw Gateway 與 iOS CI 的團隊,JEXCLOUD 多區域裸金屬 Mac 是更穩的生產宿主:獨佔 Apple Silicon、真 macOS、120 秒交付、按月彈性租期;模型帳單仍走 OpenRouter,機器與路由分層清晰。規格見 定價頁,接入見 幫助中心。