GLM 5/5.1 · GPU 对比
GLM 5/5.1 — H200 vs MI355X
H200(NVIDIA Hopper)与 MI355X(AMD CDNA 4)在 GLM 5/5.1 上的正面 AI 推理基准测试对比。涵盖各类 LLM 工作负载的延迟、吞吐量与成本。使用下方图表控件切换序列、精度和指标——交互方式与主推理图表相同。
在 21–101 tok/s/user 交互性区间的低端,即 GLM 5/5.1 上以 41 tok/s/user 运行时:H200 达到 329 tok/s/GPU($1.19/百万 token),MI355X 达到 755($0.54/百万)。MI355X 每 token 成本低 120%;MI355X 每 GPU 吞吐量高出 129%。
以 61 tok/s/user 为目标在 GLM 5/5.1 上运行时,H200 产出 212 tok/s/GPU(每百万 token $1.85),MI355X 产出 367($1.11)。MI355X 每 token 成本低 67%;MI355X 每 GPU 吞吐量高出 73%。
在 GLM 5/5.1 上以 82 tok/s/user 交互性运行时,H200 吞吐量为 132 tok/s/GPU,每百万 token 成本 $2.93;MI355X 吞吐量为 229 tok/s/GPU,成本 $1.81。MI355X 每 token 成本低 62%;MI355X 每 GPU 吞吐量高出 73%。 (数据反映此 URL 的默认 1k/1k · fp8 选择——如果您在控件中更改序列、精度或模型,下方表格和图表会自动更新。)
Interpolated from real benchmark data. Edit target interactivity values below to compare at different operating points.
| Metric | Interactivity (tok/s/user) | Interactivity (tok/s/user) | Interactivity (tok/s/user) |
|---|---|---|---|
| Throughput (tok/s/gpu) | H200:329.5MI355X:755.1 | H200:212.5MI355X:367.3 | H200:132.4MI355X:228.7 |
| Cost ($/M tok) | H200:$1.190MI355X:$0.541 | H200:$1.847MI355X:$1.107 | H200:$2.933MI355X:$1.815 |
| tok/s/MW | H200:190452MI355X:284943 | H200:122811MI355X:138612 | H200:76544MI355X:86291 |
| Concurrency | H200:~34MI355X:~72 | H200:~14MI355X:~12 | H200:~7MI355X:~8 |
推理性能
不同模型、硬件配置和服务参数下的推理性能指标。
厂商:
聚合模式:
投机解码: