文章

关于 AI 推理基准测试、GPU 性能与 ML 基础设施的深度洞见。

B200 NVFP4 对比 H200 FP8 运行 GLM-5：SGLang MTP 下性价比提升高达 3.65 倍

两款 GPU 均运行 SGLang EAGLE MTP；Blackwell 世代在峰值处带来约 1.2 倍的性价比提升，NVIDIA GLM-5-NVFP4 检查点搭配 FlashInfer TRT-LLM 稀疏 MLA 在 8K/1K 场景下再叠加约 2.4–3.0 倍优势

GLM-5 发布 14 周后，AMD 在 MI355X 上同时实现了 SGLang FP8 的 MTP 和非 MTP 方案 — 通过 TileLang 实现的融合 MLA + FP8 KV 缓存在大部分性能 Pareto 前沿上将单节点 FP8 成本曲线翻转为 AMD 占优