开源持续推理基准测试——受万亿美元级吉瓦规模 Token 工厂运营者的信赖

随着世界以指数级速度迈向 AGI,软件开发和模型发布日新月异。现有基准测试因其静态性质而迅速过时,参与者往往提交专为基准测试定制的软件镜像,无法反映真实的线上推理性能。

InferenceX™(原名 InferenceMAX)是我们独立、厂商中立、可复现的基准测试平台,通过持续测试实际可用于 ML 社区的各类 AI 加速器上的推理软件来解决这些问题。

我们的开放数据与洞察已被 ML 社区广泛采用,包括万亿美元级 Token 工厂和 AI 实验室的容量规划策略团队,以及多家数十亿美元级 NeoCloud。了解更多详情请阅读我们的文章: InferenceX v1 InferenceX v2

可复现性

仪表板上的每一个数据点均来自公开的 GitHub Actions 工作流运行。测试配方、日志、产物以及数据库记录端到端关联,任何人都可以审计、重新运行或 fork 基准测试。

  1. 1
    配方提交至仓库。 每种硬件、框架、模型和精度的组合都是一个提交到公开仓库的 shell 脚本。镜像、命令行和并行度均在源码中固定。
  2. 2
    在真实硬件上运行。 GitHub Actions 将工作流调度到实际的目标加速器(NVIDIA、AMD 等)上,并在运行过程中公开流式输出完整的任务日志。
  3. 3
    上传产物。 请求延迟、token 计数、GPU 功耗遥测数据和评估样本均附加到运行页面。GitHub Actions 保留这些产物 90 天,同时每周发布完整基准测试数据库的快照作为公开的 GitHub Release,以实现更长期的可审计性。
  4. 4
    导入仪表板。 成功的运行将被加载到数据库中并在此展示。每个图表 tooltip 都附带一个直接链接,指向生成该数据点的 GitHub Actions 运行。点击任意数据点即可审计其来源。

常见问题

什么是 InferenceX?

InferenceX(原名 InferenceMAX)是一个开源、厂商中立的基准测试(benchmark)平台,持续衡量各类 GPU 和软件栈的 AI 推理性能。每当配置发生变化时,基准测试会重新运行,确保结果始终跟随模型和框架的演进保持最新。

InferenceX 由谁开发?

InferenceX 由独立半导体与 AI 研究机构 SemiAnalysis 构建,受到 MiniMax、Moonshot Kimi、Alibaba Qwen、OpenAI、Microsoft、Meta、Oracle、Tri Dao、vLLM、GPU Mode、PyTorch、CoreWeave、Nebius、TensorWave、SGLang、WEKA、Stanford、Hugging Face、Lambda、UC San Diego、Red Hat、White House 的支持与信赖。基准测试代码、数据和仪表板均在 GitHub 上开源。

InferenceX 测试了哪些 GPU?

我们会在新加速器可用时持续添加。

  • NVIDIA: H100, H200, B200, B300, GB200, GB300
  • AMD: MI300X, MI325X, MI355X
测试了哪些 AI 模型?

每个模型均在多种序列长度配置(1k/1k、1k/8k、8k/1k tokens)和并发级别下进行测试。

  • DeepSeek-R1-0528
  • gpt-oss-120b
  • Llama-3.3-70B-Instruct-FP8
  • Qwen-3.5-397B-A17B
  • Kimi-K2.5
  • Kimi-K2.6
  • Kimi-K2.7-Code
  • MiniMax-M2.5
  • MiniMax-M2.7
  • MiniMax-M3
  • GLM-5
  • GLM-5.1
  • DeepSeek-V4-Pro
测试了哪些推理框架和配置?
  • 框架:ATOM, Dynamo SGLang, Dynamo TRTLLM, Dynamo vLLM, Mooncake ATOMesh, MoRI SGLang, SGLang, TRTLLM, vLLM, MTP, AIPerf
  • 精度:FP4, FP8, BF16, INT4
  • 运行时:CUDA、ROCm
  • 分离式推理(Disaggregated serving,独立的 prefill/decode GPU 池)
  • 多 token 预测(MTP)
  • 面向 MoE 模型的宽专家并行(Wide Expert Parallelism)
InferenceX 测量哪些指标?
  • 交互性(tok/s/user)
  • 每 GPU token 吞吐量(tok/s/gpu)
  • 每 GPU 输入和输出吞吐量
  • 每兆瓦 token 吞吐量(tok/s/MW)
  • P99 首 token 延迟(TTFT)
  • 每百万 token 成本(总计、输入、输出)——涵盖超大规模云、NeoCoud 和裸机租赁定价
  • 每 token 能耗(焦耳,总计、输入、输出)
  • 用户自定义成本和功耗计算
基准测试多久运行一次?

基准测试最初按每日计划运行,但随着硬件/框架/模型组合数量的增长,这种方式已不再可行。现在,当配置发生变化(例如新软件发布、驱动更新或模型添加)时重新运行。仪表板中保留了历史数据。

InferenceX 是开源的吗?

是的。代码、数据和仪表板均为开源。 SemiAnalysisAI/InferenceX

InferenceX 与其他 AI 基准测试有何不同?

大多数 AI 基准测试是静态的、单时间点测量,参与者提交的是专为基准测试定制的镜像,无法反映真实的线上推理性能。InferenceX 在真实硬件上持续运行,采用完全可复现的配置。所有测试脚本均提交至代码仓库,基准测试日志在 GitHub Actions 上公开可见,结果端到端可审计。

结果如何实现可复现?

仪表板上的每一个数据点均由公开的 GitHub Actions 工作流运行产生。测试配方(模型、框架、精度、并行度、序列长度、并发数)已提交至仓库,在目标硬件上实际执行,产物(日志、指标、GPU 追踪数据)上传至运行页面。用户可从任何图表的 tooltip 直接点击链接,跳转到生成该数据点的 GitHub Actions 运行。

在哪里可以查看原始基准测试日志?

在图表上点击任意数据点即可打开 tooltip。其中的"GitHub Actions Run"链接将直接跳转到生成该数据点的工作流运行。在那里您可以查看完整的任务日志、框架和驱动版本、命令行参数,以及下载原始产物(包括请求延迟、token 计数和 GPU 功耗遥测数据)。

我可以自己重新运行基准测试吗?

可以。基准测试配方位于代码仓库的 /benchmarks 目录中,以独立的 shell 脚本形式存在。如果您拥有相同的硬件,可以 fork 仓库并直接运行脚本,或触发相同的 GitHub Actions 工作流来复现结果。

历史运行记录是否保留?

是的。GitHub Actions 保留工作流运行日志和产物 90 天。为了更长期的可审计性,我们还会每周发布完整基准测试数据库的快照作为公开的 GitHub Release,任何人都可以下载历史数据集并复现或重新分析仪表板中的任何图表。

我可以使用 InferenceX 的数据进行自己的分析吗?

可以。所有数据均可自由获取。仪表板支持按 GPU、模型、框架和日期范围筛选,您也可以直接从任何图表导出原始 CSV 数据。