文章

关于 AI 推理基准测试、GPU 性能与 ML 基础设施的深度洞见。

全部 amd announcement b200 b300 benchmark deepseek disagg dynamo fp4 gb200 gb300 glm5 gpu h100 h200 huawei inference kimi mi355x minimax nvfp4 nvidia nvl72 qwen rocm sglang trtllm vllm wide-ep

2026年5月25日·8 分钟阅读

AMD MI355X Qwen3.5 397B-A17B 推理：SGLang FP8 三个月内每 GPU 吞吐量提升最高 19 倍

从 v0.5.8（2 月）→ v0.5.10rc0（4 月）→ v0.5.12（5 月），三次 AITER 内核合入 MI355X 加上从 TP=8 到 TP=2/TP=4 的重新调优，将 Qwen3.5 8k/1k 峰值从 1.3k 推高至 6.4k tok/s/GPU，并将曲线延伸至 75 tok/s/user

benchmarkgpuinferenceqwenamdmi355xsglangrocm

持续的开源推理基准测试。真实、可复现、可审计的性能数据，获得 OpenAI、Meta、Oracle、Microsoft 等万亿美元级 AI 基础设施运营方的信赖。

SemiAnalysis官方网站订阅通讯关于我们

法律信息土地致谢隐私政策 Cookie 政策

参与贡献基准测试仓库前端仓库

更多GPU 可靠性每美元性能 English

如果这些数据对您的工作有帮助，欢迎在 GitHub 上为我们加星或分享给您的同事。