文章

关于 AI 推理基准测试、GPU 性能与 ML 基础设施的深度洞见。

全部 amd announcement b200 b300 benchmark deepseek disagg dynamo fp4 gb200 gb300 glm5 gpu h100 h200 huawei inference kimi mi355x minimax nvfp4 nvidia nvl72 qwen rocm sglang trtllm vllm wide-ep

2026年6月9日·34 分钟阅读

DeepSeekV4 1.6T 第0天至第43天性能演进 — Huawei、GB300 NVL72、MI355X、B200

第0天推理性能、InferenceX、26天内性能提升100倍、每百万 token 成本、Huawei 950DT 推理 Trace 分析

benchmarkgpuinferencedeepseeknvidiaamdhuaweigb300b300b200mi355xh200sglangvllmtrtllm

2026年5月27日·13 分钟阅读

GB300 NVL72 vs GB200 NVL72 推理性能与性价比对比 — DeepSeek-V4-Pro 1.6T：吞吐量最高提升 2.83 倍

DSv4-Pro FP4 8K/1K，Dynamo+vLLM，两套机架均采用分离式部署。GB300 多出 50% 的 HBM（每 GPU 288 GB vs 192 GB）解锁了 GB200 无法容纳的更宽预填充+解码配方——尽管单 GPU TCO 溢价 20%，曲线中段性价比仍提升 2.31 倍。

benchmarkgpuinferencedeepseeknvidiagb300gb200nvl72vllmdynamowide-epdisagg

2026年5月26日·14 分钟阅读

B200 NVFP4 对比 H200 FP8 运行 GLM-5：SGLang MTP 下性价比提升高达 3.65 倍

两款 GPU 均运行 SGLang EAGLE MTP；Blackwell 世代在峰值处带来约 1.2 倍的性价比提升，NVIDIA GLM-5-NVFP4 检查点搭配 FlashInfer TRT-LLM 稀疏 MLA 在 8K/1K 场景下再叠加约 2.4–3.0 倍优势

benchmarkgpuinferenceglm5nvidiab200h200sglangfp4

2026年5月26日·16 分钟阅读

B200 NVFP4 vs H100 FP8 运行 MiniMax-M2.5：vLLM 下每美元性能最高提升 8.2 倍

vLLM PR #36307 为 MiniMax 在 B200 上解锁了 trtllm-gen FP8 MoE 模块化内核；结合 NVFP4，在 8K/1K 负载下性能/成本从 22 tok/s/user 时的 4.0 倍扩大到 110 tok/s/user 时的 8.2 倍

benchmarkgpuinferenceminimaxnvidiab200h100vllmfp4

2026年5月26日·14 分钟阅读

B200 NVFP4 对比 H200 INT4 运行 Kimi K2.5/K2.6：性价比提升高达 2.95 倍

在 vLLM 8K/1K 工作负载下，B200 NVFP4 路径在 30–90 tok/s/user 推理区间内每百万 tokens 成本比 H200 INT4 低 2.71x–2.95x，比同一 B200 硬件上的 INT4 低 2.45x–2.74x。三个因素——B200 的 HBM 带宽、HBM 容量和 NVFP4 张量核心——可清晰分解该优势

benchmarkgpuinferencekiminvidiab200h200vllmnvfp4

2026年5月26日·16 分钟阅读

MI355X 上 DeepSeek-V4-Pro 搭配 SGLang：26 天内每 GPU 吞吐量提升 110.5 倍

amd/deepseek_v4 分支合入了 TileLang 注意力索引器、Triton 稀疏 MLA、融合 RoPE/Hadamard、FlyDSL MoE 以及 FP4 权重，历经 31 个性能优化 PR——将首次点亮时 20 tok/s/GPU、2.4 tok/s/user 的水平提升至 8K/1K 负载下 2,256 tok/s/GPU、9.4 tok/s/user，吞吐量与交互性同步攀升

benchmarkgpuinferencedeepseekamdmi355xsglangrocmfp4

2026年5月25日·9 分钟阅读

AMD MI355X GLM-5 推理：SGLang FP8 单节点每百万 token 成本比 B200 最高低 40%

GLM-5 发布 14 周后，AMD 在 MI355X 上同时实现了 SGLang FP8 的 MTP 和非 MTP 方案 — 通过 TileLang 实现的融合 MLA + FP8 KV 缓存在大部分性能 Pareto 前沿上将单节点 FP8 成本曲线翻转为 AMD 占优

benchmarkgpuinferenceglm5amdnvidiami355xb200sglangrocm

2026年5月25日·8 分钟阅读

AMD MI355X Qwen3.5 397B-A17B 推理：SGLang FP8 三个月内每 GPU 吞吐量提升最高 19 倍

从 v0.5.8（2 月）→ v0.5.10rc0（4 月）→ v0.5.12（5 月），三次 AITER 内核合入 MI355X 加上从 TP=8 到 TP=2/TP=4 的重新调优，将 Qwen3.5 8k/1k 峰值从 1.3k 推高至 6.4k tok/s/GPU，并将曲线延伸至 75 tok/s/user

benchmarkgpuinferenceqwenamdmi355xsglangrocm

2026年5月23日·11 分钟阅读

GB200 NVL72 对比 B200 运行 DeepSeek R1 670B：在 125 tok/s/user 下每 GPU 吞吐量最高达 4.4 倍

DeepSeek R1 FP4 1k/1k。NVL72 的 72-GPU NVLink 扩展域允许解码使用最高 EP=32 的宽专家并行，而 B200 的 8-GPU NVLink 岛通过 RoCEv2 上限为 EP=8

benchmarkgpuinferencedeepseeknvidiagb200b200nvl72trtllmdynamowide-epdisagg

2026年5月2日·6 分钟阅读

SGLang 0.5.6 在 B200 DeepSeek R1 FP4 上的表现：低并发下最高提升 1.8 倍

针对 DeepSeek V3 的分段 CUDA graph、统一事件循环和 JIT 内核将 8k/1k 吞吐量从 508 提升至 907 tok/s/GPU，使用相同的 16 GPU B200 资源池

benchmarkinferencegpunvidiab200deepseeksglangfp4

2026年4月23日·8 分钟阅读

GB200 NVL72 vs B200 Kimi K2.5 推理对比：宽 EP vLLM 带来 3.1 倍提升

NVL72 的机架级 NVLink 使 Dynamo vLLM 能够以最高 Decode EP 16 运行 Kimi K2.5 宽 EP，在 8k/1k NVFP4 下峰值吞吐量从 4,021 提升至 12,587 tok/s/GPU

benchmarkgpuinferencekiminvidiagb200b200vllmnvl72wide-ep

2026年4月22日·8 分钟阅读

AMD MI355X Kimi K2.5 推理：vLLM 25 天内吞吐量提升 7.7 倍、交互性最高提升 15 倍

vLLM PR #35850 修复了 MI355X CDNA4 上的 AITER MLA 分发路径，解锁 TP=8 下的 Kimi K2.5 推理性能，随 vLLM 0.18 一同发布

benchmarkgpuinferencekimiamdvllmrocmmi355x

2026年2月16日·55 分钟阅读

InferenceX v2：NVIDIA Blackwell 对决 AMD 与 Hopper — 前身为 InferenceMAX

GB300 NVL72、MI355X、B200、H100、分离式推理、宽专家并行、大规模混合专家、SGLang、vLLM、TRTLLM

benchmarkgpuinferenceannouncement

2025年10月9日·44 分钟阅读

InferenceMAX：开源推理基准测试

NVIDIA GB200 NVL72、AMD MI355X、每 GPU 吞吐量 Token、延迟 Tok/s/user、性价比、每百万 Token 成本、每配置兆瓦 Token 数、DeepSeek R1 670B、GPTOSS 120B、Llama3 70B

benchmarkgpuinferenceannouncement