文章

关于 AI 推理基准测试、GPU 性能与 ML 基础设施的深度洞见。

全部 amd announcement b200 b300 benchmark deepseek disagg dynamo fp4 gb200 gb300 glm5 gpu h100 h200 huawei inference kimi mi355x minimax nvfp4 nvidia nvl72 qwen rocm sglang trtllm vllm wide-ep

2026年6月9日·34 分钟阅读

DeepSeekV4 1.6T 第0天至第43天性能演进 — Huawei、GB300 NVL72、MI355X、B200

第0天推理性能、InferenceX、26天内性能提升100倍、每百万 token 成本、Huawei 950DT 推理 Trace 分析

benchmarkgpuinferencedeepseeknvidiaamdhuaweigb300b300b200mi355xh200sglangvllmtrtllm

2026年5月27日·13 分钟阅读

GB300 NVL72 vs GB200 NVL72 推理性能与性价比对比 — DeepSeek-V4-Pro 1.6T：吞吐量最高提升 2.83 倍

DSv4-Pro FP4 8K/1K，Dynamo+vLLM，两套机架均采用分离式部署。GB300 多出 50% 的 HBM（每 GPU 288 GB vs 192 GB）解锁了 GB200 无法容纳的更宽预填充+解码配方——尽管单 GPU TCO 溢价 20%，曲线中段性价比仍提升 2.31 倍。

benchmarkgpuinferencedeepseeknvidiagb300gb200nvl72vllmdynamowide-epdisagg