文章

关于 AI 推理基准测试、GPU 性能与 ML 基础设施的深度洞见。

·16 分钟阅读

MI355X 上 DeepSeek-V4-Pro 搭配 SGLang:26 天内每 GPU 吞吐量提升 110.5 倍

amd/deepseek_v4 分支合入了 TileLang 注意力索引器、Triton 稀疏 MLA、融合 RoPE/Hadamard、FlyDSL MoE 以及 FP4 权重,历经 31 个性能优化 PR——将首次点亮时 20 tok/s/GPU、2.4 tok/s/user 的水平提升至 8K/1K 负载下 2,256 tok/s/GPU、9.4 tok/s/user,吞吐量与交互性同步攀升

benchmarkgpuinferencedeepseekamdmi355xsglangrocmfp4
·9 分钟阅读

AMD MI355X GLM-5 推理:SGLang FP8 单节点每百万 token 成本比 B200 最高低 40%

GLM-5 发布 14 周后,AMD 在 MI355X 上同时实现了 SGLang FP8 的 MTP 和非 MTP 方案 — 通过 TileLang 实现的融合 MLA + FP8 KV 缓存在大部分性能 Pareto 前沿上将单节点 FP8 成本曲线翻转为 AMD 占优

benchmarkgpuinferenceglm5amdnvidiami355xb200sglangrocm
·8 分钟阅读

AMD MI355X Qwen3.5 397B-A17B 推理:SGLang FP8 三个月内每 GPU 吞吐量提升最高 19 倍

从 v0.5.8(2 月)→ v0.5.10rc0(4 月)→ v0.5.12(5 月),三次 AITER 内核合入 MI355X 加上从 TP=8 到 TP=2/TP=4 的重新调优,将 Qwen3.5 8k/1k 峰值从 1.3k 推高至 6.4k tok/s/GPU,并将曲线延伸至 75 tok/s/user

benchmarkgpuinferenceqwenamdmi355xsglangrocm
·8 分钟阅读

AMD MI355X Kimi K2.5 推理:vLLM 25 天内吞吐量提升 7.7 倍、交互性最高提升 15 倍

vLLM PR #35850 修复了 MI355X CDNA4 上的 AITER MLA 分发路径,解锁 TP=8 下的 Kimi K2.5 推理性能,随 vLLM 0.18 一同发布

benchmarkgpuinferencekimiamdvllmrocmmi355x