InferenceX™ 计划支持者
InferenceX™ 计划获得众多主要算力买家与 ML 社区知名成员的支持,包括来自 MiniMax、Moonshot Kimi、阿里巴巴 Qwen、OpenAI、Microsoft、vLLM、PyTorch 基金会、Oracle 等机构的支持者。
“在模型与推理技术栈协同演进的今天,厂商中立、持续更新的基准测试不可或缺。MiniMax M3 在设计之初就兼顾了前沿能力与实际部署效率,而社区第一时间对 vLLM 的支持也体现了我们引以为豪的协作精神。InferenceX 正是生态所需的透明、可复现的数据平台。”
“Moonshot AI 致力于通过推动前沿开源模型来支持开源生态。随着 Kimi K2 系列的不断演进,我们很高兴看到其性能被 InferenceX™ 的开放、可复现基准测试持续追踪。InferenceX™ 帮助社区更好地理解行业级性能水平,并推动生态持续改进与优化。”
“Qwen 始终致力于将强大的模型交到尽可能多的开发者手中,而真实推理效率是实现规模化的关键。InferenceX™ 为最重要的问题带来了严谨、厂商中立的测量:像 Qwen3.5 这样的模型在各类加速器上的实际表现如何。基于真实硬件的独立、可复现基准测试为社区提供了自信部署所需的清晰洞察,我们很高兴看到这种透明度推动着推理生态不断向前发展。”
“在我们以前所未有的规模构建系统之际,机器学习社区拥有开放、透明的基准测试至关重要——它们真实反映了推理在不同硬件和软件上的表现。InferenceMAX™ 的对比基准测试穿透噪音,提供了关于 token 吞吐量、每美元性能和每兆瓦 token 数的动态全景。这种开源努力增强了整个生态,帮助从研究者到前沿数据中心运营者的每一个人做出更明智的决策。”
“Azure 的使命是为客户提供性能最强、效率最高且最具成本效益的 AI 云。SemiAnalysis InferenceMAX™ 通过提供透明、可复现的基准测试来追踪各类 GPU 和软件栈在真实工作负载下的推理性能,有力地支持了这一使命。关于吞吐量、效率和每瓦成本的持续数据增强了我们优化 Azure 推理平台规模化的能力,帮助客户在 Microsoft Cloud 上自信构建。”
“在 Microsoft,为客户大规模交付最佳推理性能和经济性,需要深入理解 AI 模型如何与真实硬件和软件交互。像 InferenceMAX™ 这样的开源、可复现基准测试对于产出关于吞吐量、效率和成本的透明洞察至关重要。这些持续信号帮助指导我们的平台战略,使我们能够从芯片到系统再到软件对整个技术栈进行优化,让每一层协同工作,充分释放基础设施的潜力。”
“PyTorch 基于一个信念而生:开放工具能加速整个 AI 生态。InferenceX™ 体现了同样的理念——开放、可复现、厂商中立的基准测试,为社区提供真实硬件上的真实数据。随着推理工作负载扩展到服务数十亿用户,在各类加速器上持续更新、透明的性能基线对于做出关键基础设施决策的从业者和平台团队而言不可或缺。”
“Oracle Cloud Infrastructure 旨在为前沿实验室和企业提供灵活性与选择,提供多种 GPU SKU 用于大规模 AI。InferenceMAX 通过提供开源、可复现的基准测试来支持这一使命,真实反映最新硬件和软件上的性能、效率与成本。凭借这种透明度,客户可以自信地选择与其 AI 战略最契合的平台。”
“理论峰值与实际推理吞吐量之间的差距往往取决于系统软件:推理引擎、分布式策略和底层内核。InferenceMAX™ 的价值在于它对最新软件进行基准测试,展示了 FP4、MTP、投机解码和 wide-EP 等优化在不同硬件上的实际效果。这种开放、可复现的结果帮助整个社区更快地前进。”
“行业需要大量公开、可复现的推理性能基准测试。vLLM 团队很高兴与 InferenceMAX™ 合作。更多元化的、人人可信赖和引用的工作负载与场景将推动生态向前发展。公平、透明的测量驱动着技术栈每一层的进步——从模型架构到推理引擎再到硬件。”
“InferenceMAX™ 基准测试绝绝子,大写的赢”
“InferenceX 堪称当下最重要的开源基准测试套件”
“InferenceMAX™ 展示了开放生态如何在实践中运作。vLLM、SGLang 和 TensorRT-LLM 等众多领先推理栈均构建于 PyTorch 之上,而这样的基准测试展示了内核、运行时和框架层面的创新如何转化为 NVIDIA 和 AMD GPU 等多种硬件平台上可衡量的性能。凭借开源属性和每夜运行,InferenceMAX™ 提供了一种透明的、社区驱动的方式来追踪进展,并为 PyTorch 用户提供数据驱动的洞察。”
“InferenceMAX™ 通过提供开放、透明的基准测试来追踪推理在最新 GPU 和软件栈上的实际表现,树立了新标杆。对客户而言,拥有衡量真实每美元 token 数和每瓦 token 数的可复现数据,将抽象的营销数字转化为可操作的洞察。CoreWeave 支持这一努力,因为它为这个快速发展的领域带来了清晰度,帮助整个生态自信构建。”
“InferenceMAX™ 通过提供开放、透明的基准测试,揭示了推理在当今领先 GPU 和软件栈上的表现,树立了新标准。凭借衡量真实每美元 token 数和每瓦 token 数的可复现数据,客户可以超越营销宣传,获得可操作的洞察。对于作为全栈 AI 云服务商的 Nebius 而言,这一计划帮助我们自信地构建推理平台,并确保与生态保持一致。”
“在 TensorWave,我们基于 AMD GPU 构建下一代云,因为我们相信当客户拥有强有力的替代方案时,创新才能蓬勃发展。InferenceMAX™ 通过提供开源、可复现的基准测试来追踪最新硬件和软件的吞吐量、效率与成本,强化了这一愿景。它穿透合成数据,突出真实推理性能,帮助客户看到 AMD 平台在大规模 AI 中的全部潜力。”
“SGLang 是 xAI Grok 等众多生产级推理工厂背后的推理引擎,被誉为推理之王。在大规模场景中,我们深刻体会到性能在不同硬件、模型和配置间的巨大差异。InferenceX™ 每夜在所有主流 GPU 平台上对 SGLang 进行基准测试,以其他基准测试无法做到的方式——持续且可复现地——捕捉这种差异。”
“InferenceX™ 恰好体现了这一点——开放、可复现的基准测试,随着 xPU 加速器(GPU/TPU/LPU)、内存、存储和软件栈的演进而持续更新。我很高兴看到 InferenceX 基准测试路线图纳入了对 CPU KV Cache 卸载乃至即将到来的 NVMe KV Cache 卸载施压的智能体编程工作负载。WEKA 通过构建为这些 xPU 供给的 KV Cache 基础设施来帮助突破内存墙,拥有这种对推理性能的深度可见性有助于整个生态做出更明智的投资决策。”
“对于从事推理优化的研究者而言,理解新技术如何在软硬件栈中交互至关重要,却极难衡量。InferenceX™ 提供了亟需的洞察,展示了推理性能在各主要硬件平台上的演进轨迹,以开放、可复现的数据让差距与进展清晰可见,推动了该领域的发展。”
“Hugging Face 的存在是为了让 AI 对每个人都开放且可及。InferenceX™ 将这一使命延伸到 AI 芯片性能领域,直接从 Hub 拉取模型,在所有主流加速器上持续、透明地进行基准测试。当社区能够实时看到前沿开源模型在真实硬件上的确切表现时,整个生态的标准都将被提升。”
“Lambda 致力于让 GPU 算力对 AI 团队——从个人研究者到大型实验室——都简单易用。InferenceX™ 通过为社区提供开放、可复现的基准测试来衡量真正重要的指标:真实吞吐量、成本效率以及最新硬件和软件栈上的每瓦性能,与这一使命高度契合。团队可以基于透明、持续更新的数据做出明智的算力选择。”
“当我们推出 DistServe 时,核心论点很简单:将预填充和解码分离,分别优化。十八个月后,解聚已成为行业默认架构。InferenceX™ 是在整条帕累托曲线上对比解聚与聚合服务的基准测试。InferenceX 精确展示了 P/D 分离在 TTFT、TPOT、吞吐量和成本方面何时何地带来收益。”
“这基准测试真不错”
“现在经常听到"我们想要X领域的 SemiAnalysis"。这是对 @dylan522p 所构建之物的最好证明。”
“开放协作正在推动 AI 创新的下一个时代。开源的 InferenceMAX 基准测试为社区提供透明的每夜结果,激发信任并加速进步。它突出了我们 AMD Instinct MI300、MI325X 和 MI355X GPU 在多样化工作负载中极具竞争力的 TCO 表现,彰显了我们平台的实力以及我们致力于让开发者实时了解软件进展的承诺。”
“推理需求在长上下文推理的驱动下呈指数级增长。NVIDIA Grace Blackwell NVL72 正是为这个思考型 AI 的新时代而生。NVIDIA 通过持续的硬件和软件创新来满足这一需求,推动 AI 的下一步发展。通过高频基准测试,InferenceMAX™ 为行业提供了 LLM 推理在真实工作负载上性能的透明视角。结果一目了然:Grace Blackwell NVL72 搭配 TRT-LLM 和 Dynamo 提供了无与伦比的每美元性能和每兆瓦性能——驱动着全球最高效、最具成本效益的 AI 工厂。”
“速度就是护城河。InferenceMAX™ 的每夜基准测试与 AMD 软件栈的改进速度同步。看到 AMD MI300、MI325 和 MI355 GPU 在多样化工作负载和交互级别上表现如此出色,令人振奋。”
“InferenceMAX™ 聚焦机器学习社区关注的工作负载。在 NVIDIA,我们欢迎这些对比,因为它们凸显了我们全栈方案的优势——从 GPU 硬件到 NVLink 网络,到 NVL72 机架级系统,再到 Dynamo 解聚服务,持续提供业界领先的推理性能和大规模投资回报率。”
“InferenceMAX™ 的每夜结果突出展示了 AMD 软件栈的快速进步。能够见证一个开源项目的诞生令人兴奋——它在 AMD 软件团队的工作与其对我们 MI300、MI325 和 MI355 GPU 上特定机器学习用例的影响之间建立了紧密的反馈闭环。我期待看到 InferenceMAX 的下一步发展,并展示 AMD 平台的能力。AMD GPU 将持续每周变得更快。”
“在 Crusoe,我们相信成为优秀合作伙伴意味着赋予客户选择权和清晰度。这就是我们自豪地支持 InferenceMAX™ 的原因——它为整个 AI 社区提供最新硬件上开源、可复现的基准测试。通过提供关于吞吐量、效率和成本的透明真实数据,InferenceMAX™ 穿透炒作,帮助客户自信地为其独特工作负载选择最佳平台。”
“Supermicro 对 InferenceMAX™ 的发布感到振奋——这是 SemiAnalysis 的基准测试系统,衡量真实吞吐量、每美元性能和能效。这一开源工具在最新硬件和软件上提供可复现的基准测试,帮助 AI 实验室和企业在大规模场景中选择最佳平台。”
“Vultr 致力于提供一个开放生态,让开发者自由选择如何构建和扩展 AI——无论是在 NVIDIA 还是 AMD GPU 上。借助 InferenceMAX™,客户获得开放、可复现的基准测试,对前沿硬件和软件的吞吐量、效率与成本提供清晰洞察。通过展示真实性能,我们赋能团队自信地为其 AI 工作负载选择合适的平台。”
“在 Prime Intellect,我们正在推动 AI 后训练和开放研究的前沿。InferenceX™ 通过提供开放、可复现的基准测试来追踪推理性能在不断演进的硬件和软件栈上的真实表现,与我们的工作形成互补。对于像我们这样的研究者,拥有关于吞吐量和效率的透明、持续更新的数据意味着我们可以专注于构建更好的模型,而不必为基础设施选择纠结。这正是加速每个人进步的社区驱动力量。”
“在 Firmus,我们正在建造全球最节能的 AI 工厂——而效率只有在可衡量时才有意义。InferenceX™ 为行业提供开放、可复现的基准测试,追踪最新 GPU 平台和软件栈上的真实吞吐量、成本和每瓦性能。随着我们在亚太和澳洲扩展吉瓦级可再生能源驱动的 AI 基础设施,这种透明、持续更新的数据帮助整个生态了解这些系统的实际交付能力。”
“InferenceMAX 对我们很有用,即使 Dylan Patel 是个有感情的可爱小伙子”
“InferenceX™ 提供了社区所需的开源测量——真实工作负载、真实硬件和真实软件栈上的每夜结果。作为一位大量撰写过理论性能与实际系统性能差距的人,我很高兴看到一个让这种差距对每个人都清晰可见、可追踪的项目。”
“我们在 Adaptive ML 自己也使用 InferenceX 基准测试作为帮助我们做出基础设施决策的关键数据点之一。推理性能对于大规模强化学习工作负载至关重要,快速生成直接影响客户的上市时间和收入。InferenceX™ 持续对全栈进行基准测试——引擎、模型、软件和硬件,覆盖 GB300 NVL72 等机架级系统。这正是生态一直缺少的那种开放、透明、可复现的信号。”
“我们的客户使用前沿开源模型将 AI 投入生产——在大规模场景中,每秒每个 token 和每百万 token 的每一美元都至关重要。InferenceX™ 为生态提供了我们一直需要的东西:一个客观、开放的基准测试,持续追踪 GB300 NVL72、GB200 NVL72、H100 以及即将到来的 Rubin、TPU 和 Trainium 等硬件上的真实推理性能。这对帮助更广泛的社区理解行业格局并建立清晰的性能分类体系非常有价值。”
“我们创立 Verda 是为了让 AI 工程师无障碍地使用前沿算力,没有门槛。InferenceX 通过为 AI 构建者提供开放、可复现的基准测试来支持这一使命,展示 GPU 在真实推理工作负载下的实际交付能力。我们希望客户看到透明、持续更新的性能数据,没有营销虚辞。InferenceX 恰好提供了这一切。”
“Voltage Park 旨在为 AI 团队提供快速、经济的大规模 GPU 算力。InferenceX™ 通过提供开放、可复现的基准测试来展示推理在最新硬件和软件栈上的实际表现,有力支持了这一目标。凭借关于吞吐量、效率和成本的透明、持续更新数据,团队可以自信地做出算力决策而非凭空猜测。我们很高兴支持一项为生态带来如此清晰度的工作。”
“在 Periodic Labs,我们正在构建将算力转化为真实科学发现的 AI 科学家。这意味着我们非常关注每块 GPU 的实际交付能力。InferenceX™ 提供开放、可复现的基准测试,穿透规格表,展示最新硬件和软件栈上的真实吞吐量、效率与成本。在数千块 GPU 上做过推理后,我可以说这种透明、持续更新的数据正是从业者做出明智基础设施决策所需要的。”
“随着 AI 基础设施在全球范围内扩展,没有任何单一厂商或地区能够定义适用于所有人的基准测试。InferenceX 是朝着共享、透明的推理性能和 TCO 视角迈出的重要一步,为主权 AI 云运营商带来更理性的投资决策、更健康的竞争,并最终在全球范围内提供更可及的 AI 算力。”
“拥有一个开放且持续更新的平台来对推理引擎在真实工作负载和多样化硬件上进行基准测试非常重要。InferenceX 提供了这种透明、实用的评估,帮助社区更好地理解真实系统瓶颈和权衡。这样的基准测试对于构建更高效、更可扩展的 AI 系统至关重要。此外,随着 LLM 智能体在改进系统方面日益强大,这样的平台可以提供闭合自动优化循环所需的可靠反馈,进一步推动该领域的进步。”
“在 GMI Cloud,我们认为推理已成为 AI 价值创造的核心。SemiAnalysis 通过 InferenceX 做了行业期盼已久的事——将推理从一个黑箱变成了一个被持续衡量的真实系统。InferenceX 不仅对硬件进行基准测试,还覆盖完整技术栈——模型、运行时和分布式系统,反映的是 AI 在生产中的实际运行方式,而非营销宣传。”
“在 EmbeddedLLM,我们的团队深耕于生产推理栈,包括 vLLM 的核心维护和贡献工作,因此我们每天都能看到真实 AI 性能在多大程度上取决于完整系统:模型、运行时、内核、调度和硬件。InferenceX™ 之所以重要,是因为它持续且公开地对完整系统进行基准测试。它将推理从营销话题转变为工程学科,为 AI 实验室、新型云服务商和企业提供在生产规模上做出吞吐量、成本和效率决策所需的数据。”