GLM-5 发布 14 周后，AMD MI355X SGLang FP8 在 8k/1k 工作负载的大部分单节点 Pareto 前沿上，每百万 token 成本低于 NVIDIA B200 SGLang FP8（从约 10 到约 77 tok/s/user；B200 在约 90 tok/s/user 以上重新反超）。峰值差距为使用 MTP 时在 18 tok/s/user 下达到 1.41 倍（B200 $0.30/M vs MI355X $0.22/M — 降低 40%），不使用 MTP 时在 10 tok/s/user 下达到 1.36 倍（$0.31/M vs $0.23/M）。两项测试均使用 SGLang v0.12，MI355X 的 ROCm 软件栈在此版本上已与 B200 的 CUDA 软件栈功能对齐：均支持 MTP 和非 MTP 方案，均支持 FP8 KV 缓存，均基于 SGLang 最新的 TileLang MLA 路径。

这正是关键的节奏。GLM-5 发布后，一个季度内 AMD 就完成了上游 SGLang 内核的合入（sgl-project/sglang PR #21511）及其他优化，并提交了配套的 InferenceX 方案（InferenceX PR #1440），将该模型的 FP8 单节点成本曲线翻转为 AMD 占优。速度就是护城河。

点击查看完整 InferenceX 仪表板 →

GLM-5 是智谱（ZAI）的 MoE 旗舰模型，于 2026-02-11 发布 — 距本文所述的 InferenceX 测试正好 14 周。该模型拥有 744B 参数的稀疏 MoE 架构，每 token 激活约 40B：256 个专家采用 top-8 路由（约 5.9% 稀疏度），外加共享专家。公开的架构名称为 glm_moe_dsa — 模型在解码路径中集成了 DeepSeek 稀疏注意力（DSA），这与 DeepSeek 在 V3.2 中引入的稀疏注意力模式相同，也是 SGLang 的 TileLang 后端所围绕构建的核心，同时采用多头潜在注意力（MLA）进行 KV 缓存压缩以支持其 200K 上下文窗口。

在 MI355X 上，等效能力在四月中旬通过 SGLang 的 TileLang 后端落地，由此带来的解码吞吐量提升使得 MI355X 较低的单 GPU TCO（$1.48/GPU/hr，B200 为 $1.95/GPU/hr，数据来源 SemiAnalysis AI Cloud TCO 模型）得以转化为真正的每 token 成本优势，而非被软件差距所淹没。

推动这一结果的关键优化

AMD 方面的标志性性能优化之一是 sgl-project/sglang PR #21511（由 HaiShaw 提交，2026-04-03 合入）。该 PR 通过 SGLang 的 TileLang 后端为 MI300/MI355 启用了 FP8 KV 缓存和 FP8 注意力内核（在 DeepSeek-V3.2 和 GLM-5 上均已测试），并针对不同硬件代际采用了不同的融合策略：

在 MI355 上，该 PR 复用了现有的 fused_qk_rope_cat_and_cache_mla 内核来同时处理 Q 和 KV 的 FP8 量化。QK rope 拼接、MLA 缓存写入以及 Q 和 KV 的 FP8 量化全部合并到每个解码步骤的单次内核调用中 — 无需额外的 HBM 往返，无需单独的量化内核启动。

TileLang 依赖版本已更新以在 AMD 上启用 FP8 GEMM，并新增了 sparse_mla_fwd_decode_partial_fp8 内核用于部分解码归约路径。该 PR 报告 MI355 吞吐量提升超过 5%（MI300 超过 10%），gsm8k 准确率无下降（DeepSeek-V3.2 0.945 → 0.946；GLM-5 0.946 → 0.950），通过 --kv-cache-dtype fp8_e4m3 配合 TileLang 预填充/解码后端激活。

基准测试数据

所有数据均为 GLM-5 FP8，ISL 8192 / OSL 1024，单节点非分离式部署，于 2026-05-20 在 InferenceX 上测量，CUDA（B200）和 ROCm（MI355X）均使用 SGLang v0.12。每百万总 token 成本计算方式为 TCO_$/GPU/hr / (3600 × tput_per_gpu / 1e6)，B200 为 $1.95/GPU/hr，MI355X 为 $1.48/GPU/hr。

容器镜像：

B200: lmsysorg/sglang:v0.5.12-cu130
MI355X: lmsysorg/sglang-rocm:v0.5.12-rocm720-mi35x-20260517

B200 SGLang FP8 MTP，TP=8，8 GPU：

并发数	tok/s/GPU	tok/s/user	TPOT (ms)	$/M tokens
4	417.0	100.85	9.92	$1.30
8	650.1	77.82	12.85	$0.83
16	952.7	56.93	17.57	$0.57
32	1,296.8	38.16	26.21	$0.42
64	1,619.3	23.56	42.45	$0.34
128	1,929.5	13.78	72.59	$0.28
256	1,947.3	11.88	84.15	$0.28

MI355X SGLang FP8 MTP，TP=4，4 GPU（Pareto 锚定方案）：

并发数	tok/s/GPU	tok/s/user	TPOT (ms)	$/M tokens
4	625.5	76.80	13.02	$0.66
8	911.7	54.59	18.32	$0.45
16	1,208.1	35.82	27.92	$0.34
32	1,707.4	24.83	40.27	$0.24
64	1,895.0	18.19	54.99	$0.22
128	1,911.7	18.05	55.40	$0.22

MI355X SGLang FP8 MTP，TP=8，8 GPU（高交互性分支）：

并发数	tok/s/GPU	tok/s/user	TPOT (ms)	$/M tokens
4	373.4	90.43	11.06	$1.10
8	534.2	65.05	15.37	$0.77

B200 SGLang FP8 非 MTP，TP=8，8 GPU：

并发数	tok/s/GPU	tok/s/user	TPOT (ms)	$/M tokens
4	231.3	54.25	18.43	$2.34
8	382.4	46.07	21.71	$1.42
16	613.2	36.65	27.28	$0.88
32	933.7	27.47	36.40	$0.58
64	1,291.8	18.42	54.28	$0.42
128	1,669.1	11.87	84.23	$0.32
256	1,746.1	10.72	93.27	$0.31

MI355X SGLang FP8 非 MTP，TP=4，4 GPU：

并发数	tok/s/GPU	tok/s/user	TPOT (ms)	$/M tokens
4	358.8	42.03	23.79	$1.15
8	579.6	34.68	28.83	$0.71
16	870.8	25.86	38.67	$0.47
32	1,274.0	18.57	53.86	$0.32
64	1,660.1	11.83	84.56	$0.25
128	2,071.4	7.33	136.36	$0.20
256	2,189.4	6.69	149.45	$0.19

等交互性成本对比

对两条 Pareto 前沿在匹配交互性下进行插值。对于 MI355X MTP，Pareto 前沿取 TP=4 和 TP=8 在每个交互性水平上的较低值 — TP=4 在约 77 tok/s/user 以下占优，TP=8 并发数 4 在高交互性端（约 90 tok/s/user）接管，因为 TP=4 无法达到该区间。

MTP：

交互性 (tok/s/user)	B200 SGLang MTP $/M tok	MI355X SGLang MTP $/M tok	B200 / MI355X
18	$0.30	$0.22	1.41x
24	$0.34	$0.24	1.40x
35	$0.40	$0.34	1.17x
55	$0.55	$0.45	1.22x
77	$0.82	$0.66	1.25x
90	$1.08	$1.10	0.98x

非 MTP：

交互性 (tok/s/user)	B200 SGLang $/M tok	MI355X SGLang $/M tok	B200 / MI355X
15	$0.37	$0.28	1.31x
20	$0.45	$0.35	1.27x
30	$0.66	$0.58	1.14x
40	$1.07	$1.03	1.05x

GLM-5 FP8 8k/1k 每百万总 token 成本与交互性关系图，B200 SGLang 和 MI355X SGLang，含和不含 MTP 投机解码 — GLM-5 FP8 8k/1k。每百万总 token 成本与交互性。B200 SGLang 和 MI355X SGLang，含和不含 MTP。标签标注每个配置的 GPU 数量。

实时图表，预筛选为 2026-05-20 测试中 B200 和 MI355X SGLang 上的 GLM-5 FP8。

MI355X 在 GLM-5 上的后续展望

此次结果为单节点、聚合、仅 FP8。仍有两个差距待弥合：

FP4 可组合性。 本次对比中 B200 使用的是 CUDA nightly 上的 FP8。B200 NVFP4 SGLang 的 GLM-5 方案已开始交付，将进一步压缩 B200 的成本曲线。MI355X MXFP4 GLM-5.1 SGLang 已通过 InferenceX PR #1098 于 2026-04-21 交付，但 MI355X 上的 FP4 + MTP 组合尚未达到本文展示的 FP8 + MTP 方案的水平。
分离式部署和宽专家并行。 MI355X 上的 GLM-5 尚无分离式部署或宽 EP 方案。NVIDIA 的 GB200 NVL72 Dynamo TRT-LLM 和 Dynamo vLLM 方案在 Kimi K2.5 上已展示了机架级宽 EP 带来的约 3 倍每 GPU 吞吐量优势。AMD 尚未为 GLM-5 交付分离式部署方案。

致谢

该方案的快速落地得益于 Anush Elangovan、HaiShaw 及更广泛的 AMD AI 团队在 GLM-5 发布后 14 周内完成了上游 SGLang TileLang 融合 MLA + FP8 KV 内核的提交。SGLang 维护者在提交后数天内即完成了审查与合入。从上游到基准测试的闭环速度就是护城河。

点击查看完整 InferenceX 仪表板 →