文章

关于 AI 推理基准测试、GPU 性能与 ML 基础设施的深度洞见。

DeepSeekV4 1.6T 第0天至第43天性能演进 — Huawei、GB300 NVL72、MI355X、B200

第0天推理性能、InferenceX、26天内性能提升100倍、每百万 token 成本、Huawei 950DT 推理 Trace 分析

DeepSeek R1 FP4 1k/1k。NVL72 的 72-GPU NVLink 扩展域允许解码使用最高 EP=32 的宽专家并行，而 B200 的 8-GPU NVLink 岛通过 RoCEv2 上限为 EP=8