GB200 NVL72 vs B200 Kimi K2.5 推理对比:宽 EP vLLM 带来 3.1 倍提升

NVL72 的机架级 NVLink 使 Dynamo vLLM 能够以最高 Decode EP 16 运行 Kimi K2.5 宽 EP,在 8k/1k NVFP4 下峰值吞吐量从 4,021 提升至 12,587 tok/s/GPU

SemiAnalysis··8 分钟阅读·阅读英文原文·benchmarkgpuinferencekiminvidiagb200b200vllmnvl72wide-ep
本页目录 (click to expand)

NVIDIA GB200 NVL72 运行 Dynamo vLLM 在 Kimi K2.5 NVFP4 8k/1k 上峰值达到 12,587 tok/s/GPU,而最优 B200 单节点 vLLM 配方在同一工作负载上峰值为 4,021 tok/s/GPU。这意味着每 GPU 峰值吞吐量有 3.13 倍的优势。NVL72 的机架级 NVLink 互联让解码端可以使用最高 Decode EP 16 的宽专家并行(在已测试的配方中),峰值配方为 8 GPU 解码池上的 Decode EP 8。B200 在最优实测配方上止步于 Decode EP 4。超过该点后,专家 all-to-all 通信开始受到 scale-out 互联延迟的制约。

Kimi K2.5 是一个 1T 参数的 MoE 模型,拥有 384 个路由专家加 1 个共享专家,每 token 激活 8 个专家,共 60 层 MoE 层。每个 MoE 层执行一次路由式 all-to-all 分发加一次 all-to-all 汇聚,因此单次前向传播在 60 层中总共约有 120 次 all-to-all 操作。在 NVL72 上,这些流量始终运行在 NVLink 5 上,每 GPU 1.8 TB/s,聚合互联带宽达 130 TB/s。而在 B200 上,宽 EP 超过 8 GPU 后就离开了 NVLink 域,退回到 ConnectX 7 InfiniBand 的每 GPU 400 Gb/s,约为 NVL72 NVLink 带宽的 1/36。稀疏度为 48 的 MoE(如 K2.5)无法在规模化时容忍这种差距。

宽 EP 对 Kimi K2.5 为何重要

在 EP 4 下,每个 GPU 持有 Kimi K2.5 384 个专家中的 96 个。解码受限于每步从 HBM 重新加载这些专家权重所需的显存带宽。将 EP 扩展到 16 会将每 GPU 的专家占用降至 24 个。每次专家权重读取被摊销到更大的有效批次上——更多对等 GPU 通过该 rank 分发 token。这使解码从权重带宽受限转向算力和通信受限。在这种模式下,Blackwell 的 FP4 tensor core 和 NVLink 带宽都能发挥优势。

扩宽 EP 的代价是每个 MoE 层增加一次 all-to-all 集合通信。如果该集合通信命中 scale-out 互联,交互性预算在吞吐量收益回本之前就会崩溃。NVL72 的 scale-up 域使得 EP 8 到 EP 16 的宽 EP 在 K2.5 解码池上可行。B200 的 8 GPU NVLink 域使得跨两个节点的 Decode EP 4 成为 scale-out 接管前的天花板。

峰值吞吐量与并发曲线

所有数据均为 Kimi K2.5 NVFP4、ISL 8192 / OSL 1024,在 InferenceX 上测量。B200 数据来自 2026-03-27 运行,由 InferenceX PR #926 触发,该 PR 在随机数据集上禁用了 Kimi K2.5 vLLM 基准测试的前缀缓存。GB200 NVL72 数据来自 2026-04-07 运行,由 InferenceX PR #1008 触发,该 PR 添加了 GB200 Dynamo vLLM 分离式多节点配方(vLLM 0.18.0、nvidia/Kimi-K2.5-NVFP4、NixlConnector KV 传输、FLASHINFER_MLA 注意力)。两次运行间隔 11 天。两者均为各自硬件上峰值吞吐量配方的最新可用数据。

B200 vLLM,2026-03-27 运行,非分离式,16 GPU 池:

PrefillDecodeConctok/s/GPUTPOT (ms)tok/s/user
TP 4, EP 4TP 4, EP 448789.8101.8
TP 4, EP 4TP 4, EP 481,52911.289.5
TP 4, EP 4TP 4, EP 4162,28615.166.3
TP 4, EP 4TP 4, EP 4323,10822.245.0
TP 4, EP 4TP 4, EP 4644,02134.129.3

GB200 NVL72 Dynamo vLLM,2026-04-07 运行,分离式:

PrefillDecodeConctok/s/GPUTPOT (ms)tok/s/user
TP 4, EP 4TP 4, EP 442317.1140.8
TP 4, EP 4TP 4, EP 484217.7129.1
TP 4, EP 4TP 4, EP 4167448.7114.7
TP 4, EP 4TP 4, EP 4321,23010.396.9
TP 4, EP 4TP 4, EP 41282,17312.877.9
TP 4, EP 4TP 16, EP 165126,88520.548.8
TP 4, EP 4TP 16, EP 161,0247,56521.646.2
TP 4, EP 4TP 8, EP 82,04812,58743.123.2
TP 4, EP 4TP 16, EP 164,09612,57627.536.3

B200 在并发 64 时每 GPU 吞吐量饱和于 4,021 tok/s,此时 16 GPU 池已满载。NVL72 持续吸收并发直到 2,048 甚至更高。解码池是 8 到 16 个 GPU 的宽 EP 运行在 scale-up 互联上。增加用户使 MoE all-to-all 保持带宽受限而非延迟受限。

等交互性对比

在 B200 峰值吞吐量工作点(并发 64,29.3 tok/s/user,4,021 tok/s/GPU)处,最接近的 GB200 NVL72 数据点为:

交互性 (tok/s/user)GB200 NVL72 tok/s/GPU配置
36.312,576Decode TP 16, EP 16 at conc 4,096
23.212,587Decode TP 8, EP 8 at conc 2,048

GB200 NVL72 在 23 到 36 tok/s/user 区间内维持约 12,580 tok/s/GPU 的平台,在接近 B200 峰值的等交互性下给出 3.13 倍的吞吐量比率。

Kimi K2.5 NVFP4 8k/1k Pareto 前沿,GB200 NVL72 Dynamo vLLM vs B200 vLLM,y 轴为 tok/s/GPU,x 轴为 tok/s/user
Kimi K2.5 NVFP4 8k/1k Pareto 前沿。GB200 NVL72 Dynamo vLLM(2026-04-07)vs B200 vLLM(2026-03-27)。两次运行间隔 11 天。

在线图表,已预筛选为 4 月 7 日的 Kimi K2.5 数据。

NVL72 上的 vLLM 宽 EP

vLLM 在 v0.9 中推出了 PPLX all-to-all 后端,随后添加了 DeepEP。v0.11 完成了 V1 引擎迁移,并通过 PR #24845 扩展了双批重叠(DBO,Dual Batch Overlap)路径,添加了 DeepEP 高吞吐量内核以及 DBO 的预填充支持,使 all-to-all 通信可以隐藏在计算之后。上述基准测试运行的是 v0.18.0,未启用投机解码。

GB200 NVL72 配置在 NVIDIA Dynamo 中以 vLLM 作为 worker 运行时,在 InferenceX 数据集中标记为 dynamo-vllm。Dynamo 将预填充(4 GPU、TP 4、EP 4)与解码(8 到 16 GPU,TP 和 EP 均扩展至 16)分离,并通过 NVL72 互联在两者之间路由请求。SGLang 和 TRT-LLM 在 NVL72 上也有类似的分离式 + 宽 EP 路径,其中 SGLang 公开的 GB200 结果目前最为成熟。

各 SKU 的优势场景

B200 在 16 GPU 池上以 30 tok/s/user 的交互性提供约 4k tok/s/GPU。TP 4、EP 4 配方在并发 64 附近饱和。超过此点后延迟下限崩溃。

GB200 NVL72 在并发 2,048 到 4,096 范围内以 23 到 36 tok/s/user 的交互性提供 12.5k tok/s/GPU。已测试的单节点 B200 配方没有可比的工作点。

本文由英文原文翻译而来,如有歧义以英文版为准。所有文章版权归 © SemiAnalysis 所有,保留所有权利。覆盖应用源代码的 AGPL-3.0 许可证不适用于文章内容。