AMD MI355X GLM-5 推理:SGLang FP8 单节点每百万 token 成本比 B200 最高低 40%

GLM-5 发布 14 周后,AMD 在 MI355X 上同时实现了 SGLang FP8 的 MTP 和非 MTP 方案 — 通过 TileLang 实现的融合 MLA + FP8 KV 缓存在大部分性能 Pareto 前沿上将单节点 FP8 成本曲线翻转为 AMD 占优

SemiAnalysis··9 分钟阅读·阅读英文原文·benchmarkgpuinferenceglm5amdnvidiami355xb200sglangrocm
本页目录 (click to expand)

GLM-5 发布 14 周后,AMD MI355X SGLang FP8 在 8k/1k 工作负载的大部分单节点 Pareto 前沿上,每百万 token 成本低于 NVIDIA B200 SGLang FP8(从约 10 到约 77 tok/s/user;B200 在约 90 tok/s/user 以上重新反超)。峰值差距为使用 MTP 时在 18 tok/s/user 下达到 1.41 倍(B200 $0.30/M vs MI355X $0.22/M — 降低 40%),不使用 MTP 时在 10 tok/s/user 下达到 1.36 倍($0.31/M vs $0.23/M)。两项测试均使用 SGLang v0.12,MI355X 的 ROCm 软件栈在此版本上已与 B200 的 CUDA 软件栈功能对齐:均支持 MTP 和非 MTP 方案,均支持 FP8 KV 缓存,均基于 SGLang 最新的 TileLang MLA 路径。

这正是关键的节奏。GLM-5 发布后,一个季度内 AMD 就完成了上游 SGLang 内核的合入(sgl-project/sglang PR #21511)及其他优化,并提交了配套的 InferenceX 方案(InferenceX PR #1440),将该模型的 FP8 单节点成本曲线翻转为 AMD 占优。速度就是护城河。

GLM-5 是智谱(ZAI)的 MoE 旗舰模型,于 2026-02-11 发布 — 距本文所述的 InferenceX 测试正好 14 周。该模型拥有 744B 参数的稀疏 MoE 架构,每 token 激活约 40B:256 个专家采用 top-8 路由(约 5.9% 稀疏度),外加共享专家。公开的架构名称为 glm_moe_dsa — 模型在解码路径中集成了 DeepSeek 稀疏注意力(DSA),这与 DeepSeek 在 V3.2 中引入的稀疏注意力模式相同,也是 SGLang 的 TileLang 后端所围绕构建的核心,同时采用多头潜在注意力(MLA)进行 KV 缓存压缩以支持其 200K 上下文窗口。

在 MI355X 上,等效能力在四月中旬通过 SGLang 的 TileLang 后端落地,由此带来的解码吞吐量提升使得 MI355X 较低的单 GPU TCO($1.48/GPU/hr,B200 为 $1.95/GPU/hr,数据来源 SemiAnalysis AI Cloud TCO 模型)得以转化为真正的每 token 成本优势,而非被软件差距所淹没。

推动这一结果的关键优化

AMD 方面的标志性性能优化之一是 sgl-project/sglang PR #21511(由 HaiShaw 提交,2026-04-03 合入)。该 PR 通过 SGLang 的 TileLang 后端为 MI300/MI355 启用了 FP8 KV 缓存和 FP8 注意力内核(在 DeepSeek-V3.2 和 GLM-5 上均已测试),并针对不同硬件代际采用了不同的融合策略:

  • 在 MI355 上,该 PR 复用了现有的 fused_qk_rope_cat_and_cache_mla 内核来同时处理 Q 和 KV 的 FP8 量化。QK rope 拼接、MLA 缓存写入以及 Q 和 KV 的 FP8 量化全部合并到每个解码步骤的单次内核调用中 — 无需额外的 HBM 往返,无需单独的量化内核启动。

TileLang 依赖版本已更新以在 AMD 上启用 FP8 GEMM,并新增了 sparse_mla_fwd_decode_partial_fp8 内核用于部分解码归约路径。该 PR 报告 MI355 吞吐量提升超过 5%(MI300 超过 10%),gsm8k 准确率无下降(DeepSeek-V3.2 0.945 → 0.946;GLM-5 0.946 → 0.950),通过 --kv-cache-dtype fp8_e4m3 配合 TileLang 预填充/解码后端激活。

基准测试数据

所有数据均为 GLM-5 FP8,ISL 8192 / OSL 1024,单节点非分离式部署,于 2026-05-20 在 InferenceX 上测量,CUDA(B200)和 ROCm(MI355X)均使用 SGLang v0.12。每百万总 token 成本计算方式为 TCO_$/GPU/hr / (3600 × tput_per_gpu / 1e6),B200 为 $1.95/GPU/hr,MI355X 为 $1.48/GPU/hr。

容器镜像:

  • B200: lmsysorg/sglang:v0.5.12-cu130
  • MI355X: lmsysorg/sglang-rocm:v0.5.12-rocm720-mi35x-20260517

B200 SGLang FP8 MTP,TP=8,8 GPU:

并发数tok/s/GPUtok/s/userTPOT (ms)$/M tokens
4417.0100.859.92$1.30
8650.177.8212.85$0.83
16952.756.9317.57$0.57
321,296.838.1626.21$0.42
641,619.323.5642.45$0.34
1281,929.513.7872.59$0.28
2561,947.311.8884.15$0.28

MI355X SGLang FP8 MTP,TP=4,4 GPU(Pareto 锚定方案):

并发数tok/s/GPUtok/s/userTPOT (ms)$/M tokens
4625.576.8013.02$0.66
8911.754.5918.32$0.45
161,208.135.8227.92$0.34
321,707.424.8340.27$0.24
641,895.018.1954.99$0.22
1281,911.718.0555.40$0.22

MI355X SGLang FP8 MTP,TP=8,8 GPU(高交互性分支):

并发数tok/s/GPUtok/s/userTPOT (ms)$/M tokens
4373.490.4311.06$1.10
8534.265.0515.37$0.77

B200 SGLang FP8 非 MTP,TP=8,8 GPU:

并发数tok/s/GPUtok/s/userTPOT (ms)$/M tokens
4231.354.2518.43$2.34
8382.446.0721.71$1.42
16613.236.6527.28$0.88
32933.727.4736.40$0.58
641,291.818.4254.28$0.42
1281,669.111.8784.23$0.32
2561,746.110.7293.27$0.31

MI355X SGLang FP8 非 MTP,TP=4,4 GPU:

并发数tok/s/GPUtok/s/userTPOT (ms)$/M tokens
4358.842.0323.79$1.15
8579.634.6828.83$0.71
16870.825.8638.67$0.47
321,274.018.5753.86$0.32
641,660.111.8384.56$0.25
1282,071.47.33136.36$0.20
2562,189.46.69149.45$0.19

等交互性成本对比

对两条 Pareto 前沿在匹配交互性下进行插值。对于 MI355X MTP,Pareto 前沿取 TP=4 和 TP=8 在每个交互性水平上的较低值 — TP=4 在约 77 tok/s/user 以下占优,TP=8 并发数 4 在高交互性端(约 90 tok/s/user)接管,因为 TP=4 无法达到该区间。

MTP:

交互性 (tok/s/user)B200 SGLang MTP $/M tokMI355X SGLang MTP $/M tokB200 / MI355X
18$0.30$0.221.41x
24$0.34$0.241.40x
35$0.40$0.341.17x
55$0.55$0.451.22x
77$0.82$0.661.25x
90$1.08$1.100.98x

非 MTP:

交互性 (tok/s/user)B200 SGLang $/M tokMI355X SGLang $/M tokB200 / MI355X
15$0.37$0.281.31x
20$0.45$0.351.27x
30$0.66$0.581.14x
40$1.07$1.031.05x
GLM-5 FP8 8k/1k 每百万总 token 成本与交互性关系图,B200 SGLang 和 MI355X SGLang,含和不含 MTP 投机解码
GLM-5 FP8 8k/1k。每百万总 token 成本与交互性。B200 SGLang 和 MI355X SGLang,含和不含 MTP。标签标注每个配置的 GPU 数量。

实时图表,预筛选为 2026-05-20 测试中 B200 和 MI355X SGLang 上的 GLM-5 FP8。

MI355X 在 GLM-5 上的后续展望

此次结果为单节点、聚合、仅 FP8。仍有两个差距待弥合:

  • FP4 可组合性。 本次对比中 B200 使用的是 CUDA nightly 上的 FP8。B200 NVFP4 SGLang 的 GLM-5 方案已开始交付,将进一步压缩 B200 的成本曲线。MI355X MXFP4 GLM-5.1 SGLang 已通过 InferenceX PR #1098 于 2026-04-21 交付,但 MI355X 上的 FP4 + MTP 组合尚未达到本文展示的 FP8 + MTP 方案的水平。
  • 分离式部署和宽专家并行。 MI355X 上的 GLM-5 尚无分离式部署或宽 EP 方案。NVIDIA 的 GB200 NVL72 Dynamo TRT-LLM 和 Dynamo vLLM 方案在 Kimi K2.5 上已展示了机架级宽 EP 带来的约 3 倍每 GPU 吞吐量优势。AMD 尚未为 GLM-5 交付分离式部署方案。

致谢

该方案的快速落地得益于 Anush ElangovanHaiShaw 及更广泛的 AMD AI 团队在 GLM-5 发布后 14 周内完成了上游 SGLang TileLang 融合 MLA + FP8 KV 内核的提交。SGLang 维护者在提交后数天内即完成了审查与合入。从上游到基准测试的闭环速度就是护城河。

本文由英文原文翻译而来,如有歧义以英文版为准。所有文章版权归 © SemiAnalysis 所有,保留所有权利。覆盖应用源代码的 AGPL-3.0 许可证不适用于文章内容。