InferenceXbySemiAnalysis logo
首页仪表板GPU 对比支持者数据集文章关于
Star1,206EN

文章

关于 AI 推理基准测试、GPU 性能与 ML 基础设施的深度洞见。

全部amdannouncementb200b300benchmarkdeepseekdisaggdynamofp4gb200gb300glm5gpuh100h200huaweiinferencekimimi355xminimaxnvfp4nvidianvl72qwenrocmsglangtrtllmvllmwide-ep
2026年5月26日·14 分钟阅读

B200 NVFP4 对比 H200 INT4 运行 Kimi K2.5/K2.6:性价比提升高达 2.95 倍

在 vLLM 8K/1K 工作负载下,B200 NVFP4 路径在 30–90 tok/s/user 推理区间内每百万 tokens 成本比 H200 INT4 低 2.71x–2.95x,比同一 B200 硬件上的 INT4 低 2.45x–2.74x。三个因素——B200 的 HBM 带宽、HBM 容量和 NVFP4 张量核心——可清晰分解该优势

benchmarkgpuinferencekiminvidiab200h200vllmnvfp4
2026年4月23日·8 分钟阅读

GB200 NVL72 vs B200 Kimi K2.5 推理对比:宽 EP vLLM 带来 3.1 倍提升

NVL72 的机架级 NVLink 使 Dynamo vLLM 能够以最高 Decode EP 16 运行 Kimi K2.5 宽 EP,在 8k/1k NVFP4 下峰值吞吐量从 4,021 提升至 12,587 tok/s/GPU

benchmarkgpuinferencekiminvidiagb200b200vllmnvl72wide-ep
2026年4月22日·8 分钟阅读

AMD MI355X Kimi K2.5 推理:vLLM 25 天内吞吐量提升 7.7 倍、交互性最高提升 15 倍

vLLM PR #35850 修复了 MI355X CDNA4 上的 AITER MLA 分发路径,解锁 TP=8 下的 Kimi K2.5 推理性能,随 vLLM 0.18 一同发布

benchmarkgpuinferencekimiamdvllmrocmmi355x
SemiAnalysis logo

持续的开源推理基准测试。真实、可复现、可审计的性能数据,获得 OpenAI、Meta、Oracle、Microsoft 等万亿美元级 AI 基础设施运营方的信赖。

SemiAnalysis官方网站订阅通讯关于我们
法律信息土地致谢隐私政策Cookie 政策
参与贡献基准测试仓库前端仓库
更多GPU 可靠性每美元性能English

如果这些数据对您的工作有帮助,欢迎在 GitHub 上为我们加星或分享给您的同事。

© 2026 semianalysis.com. 保留所有权利。