文章

关于 AI 推理基准测试、GPU 性能与 ML 基础设施的深度洞见。

全部 amd announcement b200 b300 benchmark deepseek disagg dynamo fp4 gb200 gb300 glm5 gpu h100 h200 huawei inference kimi mi355x minimax nvfp4 nvidia nvl72 qwen rocm sglang trtllm vllm wide-ep

2026年5月26日·14 分钟阅读

B200 NVFP4 对比 H200 INT4 运行 Kimi K2.5/K2.6：性价比提升高达 2.95 倍

在 vLLM 8K/1K 工作负载下，B200 NVFP4 路径在 30–90 tok/s/user 推理区间内每百万 tokens 成本比 H200 INT4 低 2.71x–2.95x，比同一 B200 硬件上的 INT4 低 2.45x–2.74x。三个因素——B200 的 HBM 带宽、HBM 容量和 NVFP4 张量核心——可清晰分解该优势

benchmarkgpuinferencekiminvidiab200h200vllmnvfp4

2026年4月23日·8 分钟阅读

GB200 NVL72 vs B200 Kimi K2.5 推理对比：宽 EP vLLM 带来 3.1 倍提升

NVL72 的机架级 NVLink 使 Dynamo vLLM 能够以最高 Decode EP 16 运行 Kimi K2.5 宽 EP，在 8k/1k NVFP4 下峰值吞吐量从 4,021 提升至 12,587 tok/s/GPU

benchmarkgpuinferencekiminvidiagb200b200vllmnvl72wide-ep

2026年4月22日·8 分钟阅读

AMD MI355X Kimi K2.5 推理：vLLM 25 天内吞吐量提升 7.7 倍、交互性最高提升 15 倍

vLLM PR #35850 修复了 MI355X CDNA4 上的 AITER MLA 分发路径，解锁 TP=8 下的 Kimi K2.5 推理性能，随 vLLM 0.18 一同发布

benchmarkgpuinferencekimiamdvllmrocmmi355x