GB300 NVL72 vs GB200 NVL72 推理性能与性价比对比 — DeepSeek-V4-Pro 1.6T:吞吐量最高提升 2.83 倍

DSv4-Pro FP4 8K/1K,Dynamo+vLLM,两套机架均采用分离式部署。GB300 多出 50% 的 HBM(每 GPU 288 GB vs 192 GB)解锁了 GB200 无法容纳的更宽预填充+解码配方——尽管单 GPU TCO 溢价 20%,曲线中段性价比仍提升 2.31 倍。

SemiAnalysis··13 分钟阅读·阅读英文原文·benchmarkgpuinferencedeepseeknvidiagb300gb200nvl72vllmdynamowide-epdisagg
本页目录 (click to expand)

在 DeepSeek-V4-Pro FP4、8K/1K 输入输出长度、Dynamo vLLM 框架以及两套机架均启用分离式预填充/解码的条件下,GB300 NVL72 在等交互性下每 GPU 吞吐量最高达 GB200 NVL72 的 2.83 倍,峰值出现在 27 tok/s/user(GB300 为 6,182 tok/s/GPU,GB200 为 2,189 tok/s/GPU)。纸面上两者的硅片差异看似不大——相同的显存带宽、相同的 NVLink 互联、相同的 scale-up 规模,仅多出 1.5 倍 HBM 容量和 1.5 倍 FP4 算力——但曲线中段的差距远超任何静态比率,因为 GB300 额外的 HBM 消除了 GB200 必须为之付出代价的一个软件约束。

其机制在于 HBM 余量。DSv4-Pro 1.6T 参数量下,仅 FP4 权重就约占 800 GB,GB200 在窄预填充形态下可用 HBM 相当紧张,配方不得不在批大小上做出妥协以将模型装入显存。GB300 的 1.5 倍 HBM 容量(每 GPU 288 GB vs 192 GB)在相同形态下仍有数百 GB 的余量,使得预填充可以运行更大的批次来保持更宽解码池的饱和。在每 GPU TCO 溢价 20%($2.65 vs $2.21/GPU/hr,数据来自 SemiAnalysis AI Cloud TCO 模型)之后,GB300 在 27 tok/s/user 下每百万 token 的成本仍便宜 2.31 倍。更多 HBM,更多节省。

DeepSeek-V4-Pro 1.6T FP4 8K/1K tok/s/GPU vs 交互性。GB300 NVL72(Dynamo vLLM)浅绿色,GB200 NVL72(Dynamo vLLM)深绿色。每个曲线点标注 TP 值。GB300 在 13–18 tok/s/user 交互性范围内保持约 10k tok/s/GPU;GB200 在 15–18 tok/s/user 范围内保持约 8.5k;两者在中段均有衰减;GB300 在全重叠区间内维持更高的每 GPU 吞吐量。
DeepSeek-V4-Pro 1.6T FP4 8K/1K Pareto 前沿。GB300 NVL72 vs GB200 NVL72,均使用 Dynamo vLLM,均采用分离式预填充/解码。在 InferenceX 上测量,日期为 2026-05-22(运行编号 26306422380)。点标签表示总 TP。

DeepSeek-V4-Pro 模型架构

DeepSeek-V4-Pro 是 DeepSeek 的旗舰 MoE 模型:总参数量 1.6T,每 token 激活 49B(来自 DeepSeek V4 预览公告)。该架构将 token 级压缩DSA(DeepSeek 稀疏注意力) 结合——这是 DeepSeek 在 V3.2 中引入的稀疏注意力模式,并扩展到更长的上下文(官方服务默认以 1M 上下文运行 DSv4)。开源权重检查点为 deepseek-ai/DeepSeek-V4-Pro

纸面规格对比

GB300 NVL72(Blackwell Ultra)和 GB200 NVL72(Blackwell)共享相同的 NVLink 5 scale-up 互联、相同的 72 GPU 规模、相同一代 NVSwitch 以及相同的每 GPU 8 TB/s HBM 带宽。差异在于 HBM 容量和 dense FP4 算力。数值直接取自 /gpu-specs

GPU 规格雷达图,对比 GB200 NVL72(浅绿色)和 GB300 NVL72(深绿色)在 7 个维度上的表现:显存、显存带宽、FP4/FP8/BF16 TFLOP/s、Scale Up 带宽、Scale Up 域显存、Scale Up 域显存带宽。GB300 在显存和 FP4 两项上为 100%(设定天花板);GB200 在这两项上约 67%,因为少了 1.5 倍。两者在显存带宽、Scale Up 带宽、Scale Up 域显存带宽、FP8、BF16 上持平。
GB200 NVL72(浅绿色)vs GB300 NVL72(深绿色),来自 /gpu-specs。各轴数值按面板中所有 SKU 的跨供应商最大值归一化。唯一的显著差异在于显存(GB300 设定 288 GB 天花板,GB200 约为 67%)和 FP4(GB300 设定 15 PFLOP/s 天花板,GB200 约为 67%)。其余——HBM 带宽、NVLink scale-up 带宽、规模、FP8、BF16——均相同。
规格GB200 NVL72GB300 NVL72GB300 / GB200
HBM 容量192 GB288 GB1.50x
HBM 带宽8 TB/s8 TB/s1.00x
Dense FP4 (TFLOP/s)10,00015,0001.50x
Dense FP8 (TFLOP/s)5,0005,0001.00x
Dense BF16 (TFLOP/s)2,5002,5001.00x
每 GPU Scale-up 带宽(单向)900 GB/s (NVLink 5)900 GB/s (NVLink 5)1.00x
Scale-up 规模72721.00x
Scale-up 域 HBM 容量13.5 TB20.25 TB1.50x
Scale-up 域 HBM 带宽(聚合)576 TB/s576 TB/s1.00x
TCO(SemiAnalysis AI Cloud 模型)$2.21/GPU/hr$2.65/GPU/hr1.20x

如果解码纯粹受 HBM 带宽限制,预填充纯粹受 FP4 算力限制,则纸面性价比上限在任一瓶颈上均为 1.50 / 1.20 = 1.25x。实测 2.31 倍性价比峰值比该上限高出 1.85 倍——这正是本文的核心要点。提升来自一个 硅片比率低估系统增益的区间:HBM 容量是一个离散的解锁条件(决定哪种配方能装下),而非连续旋钮;一种配方在一套机架上能跑而另一套跑不了所带来的倍数增益,不会出现在任何规格表上。

分离式部署 + 宽 EP 实际带来了什么

稀疏 MoE 的推理有两个资源特征截然相反的阶段。预填充受算力限制:请求中的每个 token 都并行通过整个模型处理,因此 DSv4-Pro 的 384 个路由专家在每个提示的每一层都被全部激活。解码受显存带宽限制:每个生成 token 每层仅激活 384 个路由专家中的 6 个(加 1 个共享专家),每步开销主要取决于从 HBM 流式读取被路由到的专家权重。在相同 GPU 上同时运行两者,预填充的突发流量会不断干扰解码的稳态运行,最终两者都无法充分利用。

分离式部署将两者拆分到独立调优的 GPU 池中。预填充实例以足够宽的配置运行,以摊销全专家激活的计算步骤;解码实例以最佳的 (TP, EP, DP) 形态运行,以在稳态负载下获得最大的每步 token 数。两个池通过 NVLink 互联通信(预填充 → 解码的 KV 传输),且可独立扩展。

宽专家并行(EP) 则将解码侧的路由专家分片到多个 rank 上。在 EP=4 时,每个 GPU 持有 DSv4-Pro 384 个路由专家中的 96 个,所有这些都必须常驻 HBM 并随时准备响应路由到它们的 token。在 EP=8 时每 GPU 持有 48 个。在 EP=16 时每 GPU 持有 24 个——每 rank 的路由专家权重占用近似线性缩减,余下的 HBM 用于 KV 缓存和激活值。分片越宽,每个 GPU 的 HBM 带宽在服务路由到其专家的请求时分摊越均匀,每 GPU 解码效率也就越高。EP 组中每增加一个 rank 都在为其他所有 rank 做有用功——就是"买得越多,省得越多"的杠杆,应用的不是批量硬件折扣,而是实际的硅片利用率。

代价在于宽 EP 需要在每个 MoE 层的专家 GEMM 前后分别执行一次路由式 all-to-all 分发all-to-all 汇聚。在 DSv4-Pro 的 MoE 层中,这意味着每个 token 需要数百次集合通信。它们必须在 GEMM 计算背后重叠,否则就暴露为裸延迟。在 NVLink 5 上(每 GPU 单向 900 GB/s,双向 1.8 TB/s),该分发在 EP=8 到 EP=16 的中等批解码中可以嵌入 GEMM 时间预算内,运行时将其隐藏。而在 scale-out 侧(ConnectX-7 RoCEv2 Ethernet 或 InfiniBand,每 GPU 单向 50 GB/s,慢 18 倍),相同的集合通信需要 18 倍时间并暴露为延迟——这就是为什么宽 EP 需要机架级 NVLink 域,也是为什么无论谁先出货,GB200 NVL72 和 GB300 NVL72 在该负载上都优于任何 8-GPU HGX 节点。

测试数据

所有行均为 DeepSeek-V4-Pro FP4、ISL 8192 / OSL 1024、NVL72、Dynamo vLLM、分离式预填充/解码、无投机解码,在 InferenceX 上于 2026-05-22 测量(GHA 运行编号 26306422380)。每百万总 token 成本按 TCO_$/GPU/hr × 1e6 / (3600 × tput_per_gpu) 计算,GB200 NVL72 为 $2.21/GPU/hr,GB300 NVL72 为 $2.65/GPU/hr,来自 SemiAnalysis AI Cloud TCO 模型

GB200 NVL72 (Dynamo vLLM),DSv4-Pro FP4 8K/1K 分离式:

ConcPrefillDecodetok/s/GPUtok/s/userTPOT (ms)$/M tok
18 GPU, TP=88 GPU, EP=132.874.1313.26$18.72
2568 GPU, TP=832 GPU, EP=11,613.832.6930.83$0.38
5128 GPU, TP=832 GPU, EP=12,004.528.3135.46$0.31
2568 GPU, TP=88 GPU, EP=83,148.024.4241.23$0.20
5128 GPU, TP=88 GPU, EP=85,336.221.2647.43$0.10
10248 GPU, TP=88 GPU, EP=86,036.221.6046.42$0.10
409616 GPU, TP=88 GPU, EP=88,153.118.5154.34$0.08
409624 GPU, TP=88 GPU, EP=88,933.015.2666.26$0.07

GB300 NVL72 (Dynamo vLLM),DSv4-Pro FP4 8K/1K 分离式:

ConcPrefillDecodetok/s/GPUtok/s/userTPOT (ms)$/M tok
184 GPU, TP=468 GPU, EP=1138.873.4313.58$5.31
1924 GPU, TP=424 GPU, EP=11,920.036.7827.44$0.38
307228 GPU, TP=832 GPU, EP=166,812.025.9138.77$0.11
409616 GPU, TP=88 GPU, EP=810,214.017.5857.12$0.07
409620 GPU, TP=88 GPU, EP=810,853.114.7469.17$0.07
409624 GPU, TP=88 GPU, EP=811,055.613.1277.83$0.07

GB200 的每 GPU 峰值吞吐量为 8,933,交互性为 15.3 tok/s/user。GB300 的峰值为 11,056,交互性为 13.1 tok/s/user——在更低交互性下限处,每 GPU 吞吐量高出 1.24 倍,计入软件开销后接近 1.5 倍的硅片比率。峰值处的单位成本性价比基本持平($0.069 vs $0.067),因为 GB300 的 20% TCO 溢价吃掉了 1.24 倍吞吐提升的大部分。标题中的倍数差异出现的位置不在峰值,而在曲线中段——GB300 的 HBM 余量在那里带来了 GB200 不具备的配方。

等交互性对比

在匹配交互性下的每 GPU 吞吐量和每百万 token 成本,沿各 SKU 的 Pareto 前沿插值。超出前沿实测范围的单元格标记为 _unreachable_

交互性 (tok/s/user)GB200 tok/s/GPUGB300 tok/s/GPUGB300 / GB200GB200 $/M tokGB300 $/M tokGB200 / GB300
168,83510,6081.20x$0.07$0.071.00x
188,36610,0941.21x$0.07$0.071.01x
207,2839,4011.29x$0.08$0.081.07x
225,6508,5621.52x$0.11$0.081.31x
252,8467,2082.53x$0.21$0.102.11x
272,1896,1822.83x$0.28$0.122.31x
282,0585,7892.81x$0.30$0.132.30x
321,6613,5702.15x$0.36$0.211.76x
361,3762,0361.48x$0.65$0.351.88x
506499411.45x$4.78$1.583.03x

标题中 2.83 倍每 GPU 吞吐量峰值出现在 27 tok/s/user(性价比 2.31 倍),位于曲线中段而非峰值吞吐处。在 20 tok/s/user 以下,两套机架都运行足够宽的预填充批次,HBM 余量优势被抹平;在 36 tok/s/user 以上,两者都运行窄批次,没有哪套机架拥有宽 EP 能充分利用的配方。22–32 tok/s/user 区间是 GB300 的 1.5 倍 HBM 容量让其停留在一个更高 Pareto 节点上的地方(conc=3072, 28 GPU 预填充, 32 GPU 解码 EP=16, 6,812 tok/s/GPU at 25.9 tok/s/user),而 GB200 在同等交互性下没有等效配方——其最接近的配方是在 32-GPU 解码池上 conc=256 / 512,仅能提供 1,614–2,005 tok/s/GPU。

50 tok/s/user 行显示成本比率(3.03x)再次扩大,因为两条曲线都进入了右侧的陡峭衰减区。这里的解读需要更谨慎——两套机架在该区域的 Pareto 覆盖都很薄(GB200 在约 33 tok/s/user 处各有一个节点,GB300 在约 37 tok/s/user 处各有一个节点,然后是到约 73 tok/s/user 的长尾),因此插值是在两个间隔较大的实测节点之间读取差距。22–32 tok/s/user 区间才是 GB300 优势的可靠甜蜜点;将 50 tok/s/user 行视为方向性参考。

DeepSeek-V4-Pro 1.6T FP4 8K/1K tok/s/GPU vs 交互性。GB300 NVL72(Dynamo vLLM)浅绿色,GB200 NVL72(Dynamo vLLM)深绿色。每个曲线点标注 TP 值。GB300 在 13–18 tok/s/user 交互性范围内保持约 10k tok/s/GPU;GB200 在 15–18 tok/s/user 范围内保持约 8.5k;两者在中段均有衰减;GB300 在全重叠区间内维持更高的每 GPU 吞吐量。
DeepSeek-V4-Pro 1.6T FP4 8K/1K Pareto 前沿。GB300 NVL72 vs GB200 NVL72,均使用 Dynamo vLLM,均采用分离式预填充/解码。在 InferenceX 上测量,日期为 2026-05-22(运行编号 26306422380)。点标签表示总 TP。

在线图表,已预筛选为 2026-05-22 运行中 GB200 NVL72 和 GB300 NVL72 Dynamo vLLM 的 DSv4-Pro FP4 8K/1K 数据。

致谢

感谢 NVIDIA 的 Dynamo 和 vLLM 团队——包括 Jatin Gangani、Kedar Potdar、Sridhar Ramaswamy、Ishan Dhanani 和 Sahithi Chigurupati——以及 vLLM 团队,是他们将 GB200 和 GB300 的 DSv4-Pro 配方交付落地,使得机架间对比成为可能。配套文章:GB200 NVL72 vs B200 DeepSeek R1 对比,覆盖了 SKU 梯队下一级的 scale-up 互联优势。

本文由英文原文翻译而来,如有歧义以英文版为准。所有文章版权归 © SemiAnalysis 所有,保留所有权利。覆盖应用源代码的 AGPL-3.0 许可证不适用于文章内容。