文章 | InferenceX by SemiAnalysis

首页仪表板 GPU 对比支持者数据集文章关于

文章

关于 AI 推理基准测试、GPU 性能与 ML 基础设施的深度洞见。

全部 amd announcement b200 b300 benchmark deepseek disagg dynamo fp4 gb200 gb300 glm5 gpu h100 h200 huawei inference kimi mi355x minimax nvfp4 nvidia nvl72 qwen rocm sglang trtllm vllm wide-ep

2026年5月26日·16 分钟阅读

B200 NVFP4 vs H100 FP8 运行 MiniMax-M2.5：vLLM 下每美元性能最高提升 8.2 倍

vLLM PR #36307 为 MiniMax 在 B200 上解锁了 trtllm-gen FP8 MoE 模块化内核；结合 NVFP4，在 8K/1K 负载下性能/成本从 22 tok/s/user 时的 4.0 倍扩大到 110 tok/s/user 时的 8.2 倍

benchmarkgpuinferenceminimaxnvidiab200h100vllmfp4

持续的开源推理基准测试。真实、可复现、可审计的性能数据，获得 OpenAI、Meta、Oracle、Microsoft 等万亿美元级 AI 基础设施运营方的信赖。

SemiAnalysis官方网站订阅通讯关于我们

法律信息土地致谢隐私政策 Cookie 政策

参与贡献基准测试仓库前端仓库

更多GPU 可靠性每美元性能 English

如果这些数据对您的工作有帮助，欢迎在 GitHub 上为我们加星或分享给您的同事。

© 2026 semianalysis.com. 保留所有权利。