gpt-oss 120B · GPU 对比

gpt-oss 120B — B200 vs H200

B200NVIDIA Blackwell)与 H200NVIDIA Hopper)在 gpt-oss 120B 上的正面 AI 推理基准测试对比。涵盖各类 LLM 工作负载的延迟、吞吐量与成本。使用下方图表控件切换序列、精度和指标——交互方式与主推理图表相同。

B200 / H200 在 gpt-oss 120B 上以 112 tok/s/user 运行:20405 / 2969 tok/s/GPU,$0.03 / $0.13 每百万 token。B200 每 token 成本低 395%;B200 每 GPU 吞吐量高出 587%。

在 59–270 tok/s/user 交互性区间的中部,即 gpt-oss 120B 上以 164 tok/s/user 运行时:B200 达到 16102 tok/s/GPU($0.03/百万 token),H200 达到 1607($0.24/百万)。B200 每 token 成本低 609%;B200 每 GPU 吞吐量高出 902%。

以 217 tok/s/user 为目标在 gpt-oss 120B 上运行时,B200 产出 8455 tok/s/GPU(每百万 token $0.06),H200 产出 797($0.49)。B200 每 token 成本低 706%;B200 每 GPU 吞吐量高出 960%。 (数据反映此 URL 的默认 1k/1k · fp4 选择——如果您在控件中更改序列、精度或模型,下方表格和图表会自动更新。)

查看每美元性能对比 →

Interpolated from real benchmark data. Edit target interactivity values below to compare at different operating points.
Metric
Interactivity (tok/s/user)
Interactivity (tok/s/user)
Interactivity (tok/s/user)
Throughput (tok/s/gpu)
B200:20405.5H200:2968.7
B200:16101.5H200:1607.1
B200:8455.2H200:797.4
Cost ($/M tok)
B200:$0.027H200:$0.132
B200:$0.034H200:$0.243
B200:$0.061H200:$0.493
tok/s/MW
B200:9403440H200:1715993
B200:7420050H200:928953
B200:3896393H200:460922
Concurrency
B200:~230H200:~64
B200:~98H200:~45
B200:~64H200:~7

推理性能

不同模型、硬件配置和服务参数下的推理性能指标。

厂商:
聚合模式:
投机解码: