InferenceXbySemiAnalysis logo
首页仪表板GPU 对比支持者数据集文章关于
Star1,206EN

文章

关于 AI 推理基准测试、GPU 性能与 ML 基础设施的深度洞见。

全部amdannouncementb200b300benchmarkdeepseekdisaggdynamofp4gb200gb300glm5gpuh100h200huaweiinferencekimimi355xminimaxnvfp4nvidianvl72qwenrocmsglangtrtllmvllmwide-ep
2026年5月26日·14 分钟阅读

B200 NVFP4 对比 H200 FP8 运行 GLM-5:SGLang MTP 下性价比提升高达 3.65 倍

两款 GPU 均运行 SGLang EAGLE MTP;Blackwell 世代在峰值处带来约 1.2 倍的性价比提升,NVIDIA GLM-5-NVFP4 检查点搭配 FlashInfer TRT-LLM 稀疏 MLA 在 8K/1K 场景下再叠加约 2.4–3.0 倍优势

benchmarkgpuinferenceglm5nvidiab200h200sglangfp4
2026年5月25日·9 分钟阅读

AMD MI355X GLM-5 推理:SGLang FP8 单节点每百万 token 成本比 B200 最高低 40%

GLM-5 发布 14 周后,AMD 在 MI355X 上同时实现了 SGLang FP8 的 MTP 和非 MTP 方案 — 通过 TileLang 实现的融合 MLA + FP8 KV 缓存在大部分性能 Pareto 前沿上将单节点 FP8 成本曲线翻转为 AMD 占优

benchmarkgpuinferenceglm5amdnvidiami355xb200sglangrocm
SemiAnalysis logo

持续的开源推理基准测试。真实、可复现、可审计的性能数据,获得 OpenAI、Meta、Oracle、Microsoft 等万亿美元级 AI 基础设施运营方的信赖。

SemiAnalysis官方网站订阅通讯关于我们
法律信息土地致谢隐私政策Cookie 政策
参与贡献基准测试仓库前端仓库
更多GPU 可靠性每美元性能English

如果这些数据对您的工作有帮助,欢迎在 GitHub 上为我们加星或分享给您的同事。

© 2026 semianalysis.com. 保留所有权利。