AI 推理基准测试
本页面展示 InferenceX 的 AI 推理基准测试结果:跨 GPU、推理框架与模型对比吞吐量(token/s/GPU)、交互性(token/s/用户)、首 token 延迟(TTFT)等指标。每个数据点都来自公开的 GitHub Actions 工作流,可复现、可审计。
图表中的模型、GPU、框架与指标名称均沿用业界通用英文名称。
推理性能
不同模型、硬件配置和服务参数下的推理性能指标。
厂商:
聚合模式:
投机解码:
本页面展示 InferenceX 的 AI 推理基准测试结果:跨 GPU、推理框架与模型对比吞吐量(token/s/GPU)、交互性(token/s/用户)、首 token 延迟(TTFT)等指标。每个数据点都来自公开的 GitHub Actions 工作流,可复现、可审计。
图表中的模型、GPU、框架与指标名称均沿用业界通用英文名称。
不同模型、硬件配置和服务参数下的推理性能指标。