GB200 NVL72 对比 B200 运行 DeepSeek R1 670B:在 125 tok/s/user 下每 GPU 吞吐量最高达 4.4 倍

DeepSeek R1 FP4 1k/1k。NVL72 的 72-GPU NVLink 扩展域允许解码使用最高 EP=32 的宽专家并行,而 B200 的 8-GPU NVLink 岛通过 RoCEv2 上限为 EP=8

SemiAnalysis··11 分钟阅读·阅读英文原文·benchmarkgpuinferencedeepseeknvidiagb200b200nvl72trtllmdynamowide-epdisagg
本页目录 (click to expand)

在 DeepSeek R1 0528 FP4 1k/1k 工作负载下,使用 Dynamo TRT-LLM + MTP 并在两款 SKU 上均采用分离式预填充/解码,GB200 NVL72 在等交互性下的每 GPU 吞吐量最高可达 B200 的 4.39 倍 — 峰值出现在 125 tok/s/user(GB200 NVL72 为 4,130 tok/s/GPU,B200 为 941 tok/s/GPU)。

NVIDIA GB200 NVL72 通过 NVLink 5 连接全部 72 块 GPU,单向带宽 900 GB/s/GPU(双向 1.8 TB/s,Jensen 计算法 rx + tx 之和)。B200 服务器仅通过 NVLink 连接 8 块 GPU;当解码 EP 需要超过 8 个 rank 时,all-to-all 通信必须离开 NVLink 岛,转而通过 ConnectX-7 RoCEv2 以太网,每 GPU 400 Gbit/s。因此任何超过 8 路 EP 的集合通信可用每 GPU 带宽从 900 GB/s 降至 50 GB/s,降幅 18 倍。DeepSeek R1 的 256 个路由专家在 all-to-all 通信全程通过 NVLink 在 16 或 32 个 rank 间传输时能充分摊薄开销。

GB200 NVL72 42U 机柜布局。18 个计算托盘各装 4 块 GPU(共 72 块),机柜中部 9 个非可扩展 NVSwitch5 托盘将 72 块 GPU 编织成一个 NVLink-5 扩展域,4 个 33 kW 电源架,IPMI 管理刀片和接水盘。
GB200 NVL72 机柜布局 — 18 个计算托盘 × 每个 4 块 GPU = 72 块 GPU 组成一个 NVLink-5 扩展域,由 9 个 NVSwitch5 托盘互联。整个机柜使用与 HGX B200 节点内部 GPU 相同的互联架构;B200 多节点分离式部署跨机柜通过 InfiniBand 或 RoCEv2 以太网通信,每 GPU 带宽低 18 倍。
DeepSeek R1 0528 FP4 1k/1k tok/s/GPU 与交互性关系图。GB200 NVL72(Dynamo TRT,MTP)浅绿色,B200(Dynamo TRT,MTP)深绿色。每个曲线点标注其解码 TP 值。
DeepSeek R1 0528 FP4 1k/1k Pareto 前沿。GB200 NVL72 对比 B200,均使用 Dynamo TRT-LLM + MTP,均采用分离式预填充/解码。数据来自 InferenceX 2026-05-22 测量。标签标注解码 TP。

DeepSeek R1 0528 是 DeepSeek 于 2025 年 5 月发布的 671B 参数 MoE 模型 — 采用多头潜在注意力(MLA)进行 KV 缓存压缩,256 个路由专家中每 token 激活 8 个外加 1 个共享专家,共 61 层 transformer。每个 MoE 层在每次前向传播时触发一次路由 all-to-all 分发(dispatch)和一次 all-to-all 汇聚(combine):大约每 token 120 次 all-to-all 通信。这一通信量级正是 NVLink 级别扩展带宽的用武之地。

GB200 NVL72 为何在曲线中段胜出

在曲线中段 — 该工作负载下大约 75–175 tok/s/user — 解码变为网络受限,瓶颈在 EP 分发和汇聚集合通信上。每个 MoE 层在每 token 触发两次 all-to-all 集合通信:一次分发,将每个 token 路由到被分配的 256 个专家中的 8 个(在宽 EP 下通常位于远程 rank 上);一次汇聚,将专家输出收集回每个 token 的主 rank。在 DeepSeek R1 的约 60 个 MoE 层中,每次前向传播大约有 120 次集合通信。

当网络足够快时,运行时可以将每次分发和汇聚与其所服务的矩阵乘法计算重叠:发起分发,对已到达的 token 开始专家 GEMM 计算,在剩余字节到达期间大致完成 GEMM,然后发起汇聚。集合通信延迟基本从关键路径上消失,因为 GPU 始终在执行有用的计算。

在 ConnectX-7 RoCEv2 以太网每 GPU 50 GB/s — 比 NVLink 低 18 倍的每 rank 带宽下 — 这种重叠无法实现。同样的集合通信每字节传输时间长达 18 倍,不再能适配 GEMM 时间预算,暴露为纯粹的通信等待时间

基准测试数据

所有数据均为 DeepSeek R1 0528 FP4,ISL 1024 / OSL 1024,Dynamo TRT-LLM 启用 MTP,两款 SKU 均采用分离式预填充/解码、多节点部署,于 2026-05-22 在 InferenceX 上测量(run 26306422380)。每百万总 token 成本计算方式为 TCO_$/GPU/hr / (3600 × tput_per_gpu / 1e6),B200 为 $1.95/GPU/hr,GB200 NVL72 为 $2.21/GPU/hr,数据来源 SemiAnalysis AI Cloud TCO 模型

GB200 NVL72(Dynamo TRT,MTP),DeepSeek R1 FP4 1k/1k 分离式部署:

并发数预填充解码tok/s/GPUtok/s/userTPOT (ms)$/M tok
44 GPU, TP=432 GPU, EP=860.7286.403.49$10.12
84 GPU, TP=432 GPU, EP=8111.8272.643.67$5.49
124 GPU, TP=432 GPU, EP=8165.2257.113.89$3.72
244 GPU, TP=432 GPU, EP=8274.8222.284.50$2.23
484 GPU, TP=432 GPU, EP=8363.3207.304.82$1.69
1804 GPU, TP=432 GPU, EP=321,149.1164.376.08$0.53
2,25312 GPU, TP=1232 GPU, EP=327,698.090.9910.99$0.08
4,3018 GPU, TP=816 GPU, EP=1612,659.743.2923.10$0.05
16,13012 GPU, TP=1220 GPU, EP=414,659.417.8256.11$0.04

B200(Dynamo TRT,MTP),DeepSeek R1 FP4 1k/1k 分离式多节点部署:

并发数预填充解码tok/s/GPUtok/s/userTPOT (ms)$/M tok
64 GPU, TP=440 GPU, EP=849.3309.173.23$10.99
104 GPU, TP=440 GPU, EP=8118.7277.393.61$4.56
154 GPU, TP=440 GPU, EP=8168.9261.093.83$3.21
254 GPU, TP=440 GPU, EP=8242.4224.594.45$2.23
454 GPU, TP=440 GPU, EP=8369.9191.185.23$1.46
904 GPU, TP=440 GPU, EP=8577.3150.566.64$0.94
1804 GPU, TP=440 GPU, EP=8897.9126.427.91$0.60
8754 GPU, TP=440 GPU, EP=82,832.9101.799.82$0.19
1,2144 GPU, TP=416 GPU, EP=87,111.474.0413.51$0.08
4,96812 GPU, TP=1232 GPU, EP=89,660.756.3517.75$0.06
10,86012 GPU, TP=1220 GPU, EP=412,515.721.3446.86$0.04

等交互性吞吐量对比

交互性 (tok/s/user)GB200 NVL72 tok/s/GPUB200 tok/s/GPUGB200 NVL72 / B200
2514,12512,2921.15x
4512,50810,8531.15x
6011,0179,1851.20x
759,3796,9681.35x
907,7964,5121.73x
1006,7813,0472.23x
1254,1309414.39x
1501,9225833.30x
1758264291.93x
2004323321.30x
2252622411.09x
2501861930.97x
2751031260.82x
300不可达67(B200 胜出)

以及同一对比按每百万 token 成本归一化的结果,GB200 NVL72 每 GPU 小时 TCO 高 13%($2.21 vs $1.95)削弱了其吞吐量优势:

交互性 (tok/s/user)GB200 NVL72 $/M tokB200 $/M tokB200 / GB200 NVL72
25$0.0435$0.04411.01x
45$0.0491$0.04991.02x
60$0.0557$0.05901.06x
75$0.0655$0.07771.19x
100$0.0905$0.17781.96x
125$0.1486$0.57553.87x
150$0.3194$0.92922.91x
175$0.7430$1.26381.70x
200$1.4215$1.63141.15x
225$2.3450$2.24540.96x
250$3.2962$2.80670.85x(B200 胜出)

4.39 倍的吞吐量峰值(3.87 倍的成本差距)出现在 125 tok/s/user,此时宽 EP 跨 NVLink 互联域发挥最大作用。

DeepSeek R1 0528 FP4 1k/1k tok/s/GPU 与交互性关系图。GB200 NVL72(Dynamo TRT,MTP)浅绿色,B200(Dynamo TRT,MTP)深绿色。每个曲线点标注其解码 TP 值。
DeepSeek R1 0528 FP4 1k/1k Pareto 前沿。GB200 NVL72 对比 B200,均使用 Dynamo TRT-LLM + MTP,均采用分离式预填充/解码。数据来自 InferenceX 2026-05-22 测量。标签标注解码 TP。

实时图表,预筛选为 2026-05-22 测试中 B200 和 GB200 NVL72 Dynamo TRT MTP 在 DeepSeek R1 FP4 1k/1k 上的结果。

各 SKU 的优势区间

  • GB200 NVL72 Dynamo TRT 在 75 至 200 tok/s/user 区间内是最佳选择,此区间内 72-GPU NVLink 互联域支撑的宽 EP 是主导因素。成本差距在 125 tok/s/user 时达到峰值,GB200 NVL72 便宜 3.87 倍 — 聊天式和推理服务在生产级交互性目标下恰好落在此区间。

NVIDIA 的 SGLang GB200 NVL72 结果在 SGLang 软件栈上展现了相同的扩展域优势。AMD 的 MI300/MI355X 在 2026 年下半年工程样片之前没有对应的机架级 UALoE72 产品出货,因此目前在 AMD 侧无法进行该工作负载的机架级对比。

致谢

感谢 NVIDIA 的 Dynamo 和 TensorRT-LLM 团队 — 包括 Jatin Gangani、Kedar Potdar、Sridhar Ramaswamy、Ishan Dhanani 和 Sahithi Chigurupati — 交付了 B200 多节点 RoCEv2 和 GB200 NVL72 上的分离式部署方案。请查看我们另一篇关于 GB200 NVL72 对比 B200 运行 Kimi K2.5 的博文

本文由英文原文翻译而来,如有歧义以英文版为准。所有文章版权归 © SemiAnalysis 所有,保留所有权利。覆盖应用源代码的 AGPL-3.0 许可证不适用于文章内容。