B200 NVFP4 对比 H200 FP8 运行 GLM-5:SGLang MTP 下性价比提升高达 3.65 倍

两款 GPU 均运行 SGLang EAGLE MTP;Blackwell 世代在峰值处带来约 1.2 倍的性价比提升,NVIDIA GLM-5-NVFP4 检查点搭配 FlashInfer TRT-LLM 稀疏 MLA 在 8K/1K 场景下再叠加约 2.4–3.0 倍优势

SemiAnalysis··14 分钟阅读·阅读英文原文·benchmarkgpuinferenceglm5nvidiab200h200sglangfp4
本页目录 (click to expand)

在 GLM-5 8K/1K 工作负载下,H200 和 B200 均运行 SGLang 时,NVIDIA 的 GLM-5-NVFP4 检查点在 B200 上实现了等交互性(iso-interactivity)下性价比最高达 H200 SGLang FP8 的 3.65 倍——在 80 tok/s/user 时,H200 的成本为 $1.06/M tokens,而 B200 NVFP4 仅为 $0.29/M tokens。该优势在 H200 的整个 25–84 tok/s/user 运行区间内保持在 3.24x–3.65x 范围。数据基于 2026-05-25 InferenceX 基准测试(benchmark),使用 SGLang v0.5.12。

这 3.65 倍的提升在峰值处可清晰分解。在 80 tok/s/user 时,B200 SGLang FP8 + MTP 的性价比是 H200 SGLang FP8 + MTP 的 1.22 倍——这是在相同精度和相同 EAGLE 方案下,仅靠 Blackwell 世代硬件 + 软件带来的提升。将 B200 的权重从 zai-org/GLM-5-FP8 切换为 nvidia/GLM-5-NVFP4 再叠加 2.98 倍——这是仅靠精度切换带来的提升,得益于 FlashInfer 的 TRT-LLM 稀疏 MLA 内核——该内核已在 sgl-project/sglang #21783 中被设为 sm100/sm103 的默认后端。1.22 × 2.98 ≈ 3.65。在不同运行区间,两个因素的贡献比例会互换——世代因素在低交互性时贡献更大(50 tok/s/user 时为 1.36x),精度因素在高交互性时贡献更大(84 tok/s/user 时为 3.07x)——但组合提升始终保持稳定。

GLM-5 8K/1K 每 GPU 吞吐量与交互性关系图,三条 SGLang MTP 曲线:B200 NVFP4(最上方)、B200 FP8(中间)、H200 FP8(最下方)。B200 NVFP4 在 18 tok/s/user 时峰值超过 4,000 tok/s/GPU。
GLM-5(744B / 40B 激活参数),ISL 8192 / OSL 1024。H200 和 B200 均使用 SGLang v0.5.12 及基于 EAGLE 的 MTP。标签标注了每个配置的 GPU 数量(FP4 前沿为 TP=4 的 4 GPU 加上右端一个 TP=8 / 8 GPU 数据点;FP8 曲线为 TP=8 的 8 GPU)。

GLM-5 是智谱(ZAI/Zhipu)的 MoE 旗舰模型,发布于 2026-02-11——距本次测试约 14 周。它是一个 744B 参数的稀疏 MoE,每个 token 激活约 40B 参数:256 个专家 + top-8 路由(约 5.9% 稀疏度)加共享专家,解码阶段使用 DeepSeek Sparse Attention(DSA) 并搭配 Multi-head Latent Attention(MLA)进行 KV 缓存压缩,上下文窗口为 200K。发布的架构名称为 glm_moe_dsa——与 DeepSeek 在 V3.2 中引入的稀疏注意力模式相同,也是 SGLang 在 Blackwell 上的 TRT-LLM 稀疏 MLA 后端所针对优化的架构。

NVIDIA 还发布了量化权重版本 nvidia/GLM-5-NVFP4——与 zai-org/GLM-5-FP8 采用相同的模型架构,但所有 MoE GEMM 权重从 FP8 重新转换为 NVFP4(16 元素分块、FP8 逐块缩放因子、FP32 逐张量缩放因子)。KV 缓存保持 FP8。这就是图表(chart)中 B200 曲线所加载的检查点;H200 曲线加载 zai-org/GLM-5-FP8,因为 Hopper 没有 FP4 张量核心。

纸面规格

在介绍具体方案之前,先看硬件。H200 SXM(Hopper)和 B200 SXM(Blackwell)相隔一代。下方雷达图(chart)将每个轴归一化到 /gpu-specs 中所有 NVIDIA + AMD SKU 的最大值——因此 H200 和 B200 的多边形在 GB200/GB300 NVL72 设定上限的轴上显得较小(特别是 Scale-up Domain Memory 和 Scale-up Domain Memory Bandwidth,它们随 72-GPU NVLink 域的机架级规模而扩展)。

雷达图对比 H200 SXM 和 B200 SXM 在显存、显存带宽、FP4/FP8/BF16 TFLOP/s、Scale-up 带宽、Scale-up Domain Memory 和 Scale-up Domain Memory Bandwidth 上的表现。各轴归一化至 /gpu-specs 中所有 GPU 的最大值。
H200 SXM 与 B200 SXM 的 InferenceX /gpu-specs 雷达图对比。各轴归一化至该指标的跨厂商最大值(例如 FP4 最大值为 GB300 NVL72 的 15 PFLOP/s/GPU,因此 B200 的 9 PFLOP/s 显示约 60%;Scale-up Domain Memory 和带宽最大值由 GB200/GB300 NVL72 的 72-GPU NVLink 域设定,因此 H200 和 B200 的 8-GPU 域均显示较低)。H200 在 FP4 轴上为 0%,因为 Hopper 没有 FP4 张量核心。

本次基准测试中两款 SKU 的绝对值:

规格H200 SXMB200 SXMB200 / H200
HBM 容量141 GB (HBM3e)180 GB (HBM3e)1.28x
HBM 带宽4.8 TB/s8.0 TB/s1.67x
Dense FP4 (TFLOP/s)9,000
Dense FP8 (TFLOP/s)1,9794,5002.27x
Dense BF16 (TFLOP/s)9892,2502.28x
Scale-up 每 GPU 带宽(单向)450 GB/s (NVLink 4)900 GB/s (NVLink 5)2.00x
Scale-up 节点规模881.00x
Scale-up Domain HBM 容量1,128 GB1,440 GB1.28x
Scale-up Domain HBM 带宽(聚合)38.4 TB/s64.0 TB/s1.67x
TCO(SemiAnalysis AI Cloud 模型)$1.41/GPU/hr$1.95/GPU/hr1.38x

对 FP8 对 FP8 对比的启示:在相同精度和相同方案下,B200 相对 H200 的性价比上限在完全计算瓶颈的工作负载上约为 2.27 / 1.38 ≈ 1.64x,在完全显存带宽瓶颈的工作负载上约为 1.67 / 1.38 ≈ 1.21x(以 HBM 为带宽轴;若以 NVLink 带宽计,则上限为 2.00 / 1.38 ≈ 1.45x)。实测在 80 tok/s/user 时为 1.22x,落在显存带宽瓶颈区间内——GLM-5 在此并发度下的解码阶段主要受 MoE 权重和 KV 缓存的 HBM 读取限制,而非 FP8 GEMM 吞吐量,因此 Blackwell 的 dense 计算余量大部分未被利用。NVFP4 才是打破 GEMM 天花板的关键杠杆:H200 没有 FP4 张量核心,而 B200 拥有 9 PFLOP/s,由此带来的精度提升在世代提升之上再叠加 2.41x–3.07x。

促成此结果的上游变更

上游软件栈。 SGLang v0.5.10(2026-04-07)是 GLM-5 首次在 Blackwell 上跨所有四个精度/MTP/分离式推理变体完整端到端运行的稳定版本——跟踪 issue #19380 在同日将每个 Functional 和 Baseline Perf 行标记为 DONE。本文的基准测试运行于 v0.5.12(发布于 2026-05-16),它继承了相同的 Blackwell 默认配置并增加了第一轮性能优化。关键内核变更:

  • sgl-project/sglang #21783FlashInfer TRT-LLM 稀疏 MLA 内核设为 sm100/sm103(B200/B300)的默认注意力后端。DSA prefill 和 decode 现在运行在 GLM-5/V3.2 所针对调优的内核上,而非曾在 B200 上引发 GLM-5 精度回归 的旧 flashmla_kv 路径。
  • sgl-project/sglang #21405 为稀疏 MLA 启用了 IndexCache,在连续 decode 步骤间复用索引张量,在相同内核调用序列上带来 >10% 的 decode 吞吐量提升。
  • flashinfer-ai/flashinfer #2726(FlashInfer v0.6.6.post1)修复了一个间歇性 NVFP4 非法内存访问 bug,此前一直阻塞 NVFP4 的功能验证签核;flashinfer-ai/flashinfer #2836(v0.6.7)提升了 trtllm-gen 稀疏 MLA 的性能上限。

MTP。 GLM-5 复用了 SGLang 为 DeepSeek V3.2 构建的 EAGLE 推测解码管线(--speculative-algorithm EAGLE --speculative-num-steps 3 --speculative-eagle-topk 1 --speculative-num-draft-tokens 4),并通过 SGLANG_ENABLE_SPEC_V2=1 启用 overlap 调度器。H200 和 B200 使用完全相同的参数集——两款 SKU 在下面方案中唯一的不同是模型检查点和注意力后端的选择。

详细数据

所有行均为 GLM-5 在 ISL 8192 / OSL 1024 下的单节点非分离式推理结果,数据来自 2026-05-25 的 InferenceX 基准测试,使用 SGLang v0.5.12 并在每个方案中启用基于 EAGLE 的 MTP。每百万 total tokens 成本计算公式为 TCO_$/GPU/hr / (3600 × tput_per_gpu / 1e6),H200 为 $1.41/GPU/hr,B200 为 $1.95/GPU/hr,来源于 SemiAnalysis AI Cloud TCO 模型

容器镜像:两款 SKU 均使用 lmsysorg/sglang:v0.5.12-cu130

H200 SGLang FP8 + MTP,TP=8,8 GPU(模型 zai-org/GLM-5-FP8):

Conctok/s/GPUtok/s/userTPOT (ms)$/M tokens
4347.984.4911.84$1.13
8489.759.8216.72$0.80
16675.939.6425.22$0.58
32851.924.9040.16$0.46
64847.220.8048.08$0.46

并发 64 时 tok/s/GPU 略有回落,因为首 token 延迟(TTFT)开始主导请求时间预算——并发 32 在此方案下设定了 H200 的吞吐量上限和成本下限。Pareto 前沿剔除了并发 64,因为并发 32 在两个轴上都优于它。

B200 SGLang FP8 + MTP,TP=8,8 GPU(模型 zai-org/GLM-5-FP8):

Conctok/s/GPUtok/s/userTPOT (ms)$/M tokens
4417.0100.859.92$1.30
8650.177.8212.85$0.83
16952.756.9317.57$0.57
321,296.838.1626.21$0.42
641,619.323.5642.45$0.33
1281,929.513.7872.59$0.28
2561,947.311.8884.15$0.28

B200 SGLang NVFP4 + MTP,TP=4,4 GPU(模型 nvidia/GLM-5-NVFP4)——成本前沿的锚点:

Conctok/s/GPUtok/s/userTPOT (ms)$/M tokens
41,038.7121.228.25$0.52
81,523.594.5310.58$0.36
162,228.166.2715.09$0.24
323,037.343.9922.73$0.18
643,739.726.7837.33$0.14
1284,115.517.6356.73$0.13
2564,090.717.3757.57$0.13

B200 SGLang NVFP4 + MTP,TP=8,8 GPU——单个高交互性数据点,向右延伸 FP4 前沿:

Conctok/s/GPUtok/s/userTPOT (ms)$/M tokens
4579.2140.087.14$0.94

TP=8 / 8 GPU 配置以牺牲一半的每 GPU 吞吐量为代价,在相同并发下获得了比 TP=4 高 16% 的交互性——额外的 GPU 将 TPOT 从 8.25 ms 降至 7.14 ms。FP4 的综合 Pareto 前沿从 $0.13/M(TP=4,并发 128)的 18 tok/s/user 延伸至 $0.94/M(TP=8,并发 4)的 140 tok/s/user。

等交互性下的性价比对比

在匹配的交互性水平下,沿每款 SKU 的 Pareto 前沿插值得出的每 GPU 吞吐量和每百万 tokens 成本。最后一列的性价比提升倍数为 $/M 比值的倒数——B200 NVFP4 相对于 H200 的性价比。超出前沿测量范围的单元格标记为 unreachable

交互性 (tok/s/user)H200 FP8 MTP $/MB200 FP8 MTP $/MB200 NVFP4 MTP $/MB200 NVFP4 性价比 vs H200
25$0.46$0.34$0.143.24x
30$0.50$0.37$0.153.32x
40$0.58$0.43$0.173.44x
50$0.69$0.51$0.193.54x
60$0.80$0.60$0.223.60x
70$0.93$0.72$0.263.63x
80$1.06$0.87$0.293.65x
84$1.12$0.94$0.313.64x
100unreachable$1.28$0.38
120unreachableunreachable$0.51
140unreachableunreachable$0.93

B200 NVFP4 相对 H200 的性价比提升在 80 tok/s/user 时达到峰值 3.65 倍,且在整个 H200 运行区间内保持在 3.24x–3.65x 范围——不存在 H200 FP8 + MTP 能在 3 倍以内接近 B200 NVFP4 + MTP 的交互性点。仅精度切换带来的提升(B200 FP8 → B200 NVFP4)随交互性单调递增,从 25 tok/s/user 时的 2.41 倍到 84 tok/s/user 时的 3.07 倍,因为 B200 FP8 的性价比随批量减小而下降得更快。在 84 tok/s/user 以上,对比便不复存在:H200 没有任何方案能再提供一个 tok/s/user 的交互性,而 B200 NVFP4 的运行区间还可以延伸 60 tok/s/user,直达 TP=8 下的 140 tok/s/user。

GLM-5 8K/1K 每 GPU 吞吐量与交互性关系图,三条 SGLang MTP 曲线:B200 NVFP4(最上方)、B200 FP8(中间)、H200 FP8(最下方)。B200 NVFP4 在 18 tok/s/user 时峰值超过 4,000 tok/s/GPU。
GLM-5(744B / 40B 激活参数),ISL 8192 / OSL 1024。H200 和 B200 均使用 SGLang v0.5.12 及基于 EAGLE 的 MTP。标签标注了每个配置的 GPU 数量(FP4 前沿为 TP=4 的 4 GPU 加上右端一个 TP=8 / 8 GPU 数据点;FP8 曲线为 TP=8 的 8 GPU)。

在线图表,已预筛选为 2026-05-25 测试中 H200 + B200 上的 GLM-5 SGLang MTP。在线成本视图展示相同对比的成本维度。

GLM-5 在 Blackwell 上的后续进展

三个方向仍有望进一步提升当前数字,均已在上游跟踪中:

  • NVL72 上的分离式推理。 上述数字均为单节点聚合方式。跟踪 issue 正在积极推进 FP8 B200 分离式 8K/1K 及 GB300 分离式 MTP 的工作。宽 EP(Expert Parallelism)在 NVL72 上已在 Kimi K2.5 上展示了每 GPU 吞吐量约 3 倍的优势——同样的杠杆应该能在 FP4 前沿趋于平台的低交互性/高吞吐量端进一步提升 GLM-5 的性价比。

对于在 25–84 tok/s/user 区间的聊天场景 GLM-5 推理,B200 NVFP4 + MTP 在使用 SGLang 的每个可测量运行点上均实现了 H200 FP8 + MTP 3.2x–3.65 倍的性价比优势。

致谢

本轮方案优化进展迅速,得益于 SGLang 与 NVIDIA 的协作在大约一个季度内完成了 Blackwell 上 no-MTP/MTP 和 Agg/Disagg 的所有 Functional 和 Baseline Perf 行——FlashInfer 中的 NVFP4 IMA 修复、sm100/sm103 上的稀疏 MLA 默认配置、IndexCache、GLM-5 的基于 EAGLE 的 MTP——而 InferenceX 方案循环在上游稳定后一周内即完成了 H200 MTP 兄弟方案的接入。感谢 SGLang 维护者、FlashInfer 团队、NVIDIA SGLang 协作线程以及在跟踪 issue 上提交 PR 的所有人。上游到基准测试的闭环速度就是护城河。

本文由英文原文翻译而来,如有歧义以英文版为准。所有文章版权归 © SemiAnalysis 所有,保留所有权利。覆盖应用源代码的 AGPL-3.0 许可证不适用于文章内容。