受吉瓦级 token 工厂信赖的开源持续推理基准测试

“在模型与推理技术栈协同演进的今天，厂商中立、持续更新的基准测试不可或缺。MiniMax M3 在设计之初就兼顾了前沿能力与实际部署效率，而社区第一时间对 vLLM 的支持也体现了我们引以为豪的协作精神。InferenceX 正是生态所需的透明、可复现的数据平台。”
Ryan LeeHead of DevRel, MiniMax

“Qwen 始终致力于将强大的模型交到尽可能多的开发者手中，而真实推理效率是实现规模化的关键。InferenceX™ 为最重要的问题带来了严谨、厂商中立的测量：像 Qwen3.5 这样的模型在各类加速器上的实际表现如何。基于真实硬件的独立、可复现基准测试为社区提供了自信部署所需的清晰洞察，我们很高兴看到这种透明度推动着推理生态不断向前发展。”
Alibaba Qwen

“在我们以前所未有的规模构建系统之际，机器学习社区拥有开放、透明的基准测试至关重要——它们真实反映了推理在不同硬件和软件上的表现。InferenceMAX™ 的对比基准测试穿透噪音，提供了关于 token 吞吐量、每美元性能和每兆瓦 token 数的动态全景。这种开源努力增强了整个生态，帮助从研究者到前沿数据中心运营者的每一个人做出更明智的决策。”
Peter HoescheleVP of Infrastructure and Industrial Compute, OpenAI Stargate

“Azure 的使命是为客户提供性能最强、效率最高且最具成本效益的 AI 云。SemiAnalysis InferenceMAX™ 通过提供透明、可复现的基准测试来追踪各类 GPU 和软件栈在真实工作负载下的推理性能，有力地支持了这一使命。关于吞吐量、效率和每瓦成本的持续数据增强了我们优化 Azure 推理平台规模化的能力，帮助客户在 Microsoft Cloud 上自信构建。”
Scott GuthrieExecutive Vice President, Microsoft Cloud & AI

“PyTorch 基于一个信念而生：开放工具能加速整个 AI 生态。InferenceX™ 体现了同样的理念——开放、可复现、厂商中立的基准测试，为社区提供真实硬件上的真实数据。随着推理工作负载扩展到服务数十亿用户，在各类加速器上持续更新、透明的性能基线对于做出关键基础设施决策的从业者和平台团队而言不可或缺。”
Joseph SpisakProduct Director, Meta Super Intelligence Lab

“Oracle Cloud Infrastructure 旨在为前沿实验室和企业提供灵活性与选择，提供多种 GPU SKU 用于大规模 AI。InferenceMAX 通过提供开源、可复现的基准测试来支持这一使命，真实反映最新硬件和软件上的性能、效率与成本。凭借这种透明度，客户可以自信地选择与其 AI 战略最契合的平台。”
Jay JacksonVice President, Oracle Cloud Infrastructure

“理论峰值与实际推理吞吐量之间的差距往往取决于系统软件：推理引擎、分布式策略和底层内核。InferenceMAX™ 的价值在于它对最新软件进行基准测试，展示了 FP4、MTP、投机解码和 wide-EP 等优化在不同硬件上的实际效果。这种开放、可复现的结果帮助整个社区更快地前进。”
Tri DaoChief Scientist of Together AI & Inventor of Flash Attention

“InferenceMAX™ 展示了开放生态如何在实践中运作。vLLM、SGLang 和 TensorRT-LLM 等众多领先推理栈均构建于 PyTorch 之上，而这样的基准测试展示了内核、运行时和框架层面的创新如何转化为 NVIDIA 和 AMD GPU 等多种硬件平台上可衡量的性能。凭借开源属性和每夜运行，InferenceMAX™ 提供了一种透明的、社区驱动的方式来追踪进展，并为 PyTorch 用户提供数据驱动的洞察。”
Matt WhiteExecutive Director, PyTorch Foundation

“InferenceMAX™ 通过提供开放、透明的基准测试来追踪推理在最新 GPU 和软件栈上的实际表现，树立了新标杆。对客户而言，拥有衡量真实每美元 token 数和每瓦 token 数的可复现数据，将抽象的营销数字转化为可操作的洞察。CoreWeave 支持这一努力，因为它为这个快速发展的领域带来了清晰度，帮助整个生态自信构建。”
Peter SalankiCTO, CoreWeave

“InferenceMAX™ 通过提供开放、透明的基准测试，揭示了推理在当今领先 GPU 和软件栈上的表现，树立了新标准。凭借衡量真实每美元 token 数和每瓦 token 数的可复现数据，客户可以超越营销宣传，获得可操作的洞察。对于作为全栈 AI 云服务商的 Nebius 而言，这一计划帮助我们自信地构建推理平台，并确保与生态保持一致。”
Roman CherninCo-Founder & Chief Business Officer, Nebius

“在 TensorWave，我们基于 AMD GPU 构建下一代云，因为我们相信当客户拥有强有力的替代方案时，创新才能蓬勃发展。InferenceMAX™ 通过提供开源、可复现的基准测试来追踪最新硬件和软件的吞吐量、效率与成本，强化了这一愿景。它穿透合成数据，突出真实推理性能，帮助客户看到 AMD 平台在大规模 AI 中的全部潜力。”
Darrick HortonCEO, TensorWave

“SGLang 是 xAI Grok 等众多生产级推理工厂背后的推理引擎，被誉为推理之王。在大规模场景中，我们深刻体会到性能在不同硬件、模型和配置间的巨大差异。InferenceX™ 每夜在所有主流 GPU 平台上对 SGLang 进行基准测试，以其他基准测试无法做到的方式——持续且可复现地——捕捉这种差异。”
Mingyi LuSGLang Product Lead

“InferenceX™ 恰好体现了这一点——开放、可复现的基准测试，随着 xPU 加速器（GPU/TPU/LPU）、内存、存储和软件栈的演进而持续更新。我很高兴看到 InferenceX 基准测试路线图纳入了对 CPU KV Cache 卸载乃至即将到来的 NVMe KV Cache 卸载施压的智能体编程工作负载。WEKA 通过构建为这些 xPU 供给的 KV Cache 基础设施来帮助突破内存墙，拥有这种对推理性能的深度可见性有助于整个生态做出更明智的投资决策。”
Val BercoviciChief AI Officer, WEKA

“Lambda 致力于让 GPU 算力对 AI 团队——从个人研究者到大型实验室——都简单易用。InferenceX™ 通过为社区提供开放、可复现的基准测试来衡量真正重要的指标：真实吞吐量、成本效率以及最新硬件和软件栈上的每瓦性能，与这一使命高度契合。团队可以基于透明、持续更新的数据做出明智的算力选择。”
Stephen BalabanCo-founder and CEO, Lambda

“当我们推出 DistServe 时，核心论点很简单：将预填充和解码分离，分别优化。十八个月后，解聚已成为行业默认架构。InferenceX™ 是在整条帕累托曲线上对比解聚与聚合服务的基准测试。InferenceX 精确展示了 P/D 分离在 TTFT、TPOT、吞吐量和成本方面何时何地带来收益。”
Hao ZhangAssistant Professor, UC San Diego & Co-Creator of DistServe, vLLM, and FastVideo

查看更多支持者 →

完整仪表板

覆盖所有模型、GPU、框架与指标。完全可配置的推理基准测试图表，支持日期范围、并发扫描与原始数据导出。

跨 DeepSeekv4 Pro、Qwen、Kimi、GLM、MiniMax、gpt-oss、Llama 等模型，对比 NVIDIA GB300 NVL72、GB200 NVL72、B300、B200、H200、H100、AMD MI355X、MI325X、MI300X，以及即将上线的 VR200 NVL72、AMD MI455X UALoE72、TPUv7 Ironwood 等硬件。

打开仪表板