gpt-oss 120B · GPU 对比
gpt-oss 120B — B200 vs H200
B200(NVIDIA Blackwell)与 H200(NVIDIA Hopper)在 gpt-oss 120B 上的正面 AI 推理基准测试对比。涵盖各类 LLM 工作负载的延迟、吞吐量与成本。使用下方图表控件切换序列、精度和指标——交互方式与主推理图表相同。
B200 / H200 在 gpt-oss 120B 上以 112 tok/s/user 运行:20405 / 2969 tok/s/GPU,$0.03 / $0.13 每百万 token。B200 每 token 成本低 395%;B200 每 GPU 吞吐量高出 587%。
在 59–270 tok/s/user 交互性区间的中部,即 gpt-oss 120B 上以 164 tok/s/user 运行时:B200 达到 16102 tok/s/GPU($0.03/百万 token),H200 达到 1607($0.24/百万)。B200 每 token 成本低 609%;B200 每 GPU 吞吐量高出 902%。
以 217 tok/s/user 为目标在 gpt-oss 120B 上运行时,B200 产出 8455 tok/s/GPU(每百万 token $0.06),H200 产出 797($0.49)。B200 每 token 成本低 706%;B200 每 GPU 吞吐量高出 960%。 (数据反映此 URL 的默认 1k/1k · fp4 选择——如果您在控件中更改序列、精度或模型,下方表格和图表会自动更新。)
Interpolated from real benchmark data. Edit target interactivity values below to compare at different operating points.
| Metric | Interactivity (tok/s/user) | Interactivity (tok/s/user) | Interactivity (tok/s/user) |
|---|---|---|---|
| Throughput (tok/s/gpu) | B200:20405.5H200:2968.7 | B200:16101.5H200:1607.1 | B200:8455.2H200:797.4 |
| Cost ($/M tok) | B200:$0.027H200:$0.132 | B200:$0.034H200:$0.243 | B200:$0.061H200:$0.493 |
| tok/s/MW | B200:9403440H200:1715993 | B200:7420050H200:928953 | B200:3896393H200:460922 |
| Concurrency | B200:~230H200:~64 | B200:~98H200:~45 | B200:~64H200:~7 |
推理性能
不同模型、硬件配置和服务参数下的推理性能指标。
厂商:
聚合模式:
投机解码: