Agentic 基准测试数据集

InferenceX 的 agentic 基准测试并非回放合成 prompt——而是回放真实的 Claude Code 编码会话，以对话 trace的形式捕获。每条 trace 是一次完整的多轮会话：包括主 agent 的各轮对话及其调用的所有 subagent，附带每轮的 input/output token 数以及重建 prefix-cache 复用所需的 64-token KV-cache block hash。这些 trace 在 HuggingFace 上以 semianalysisai/cc-traces-weka-* 公开发布（apache-2.0 协议）。

Trace 的采集方式

生产环境中的 Claude Code 会话通过日志代理录制，该代理捕获每个 API 请求的 input 和 output token 数、使用的模型、时间指标（TTFT、token 间延迟），以及一组 hash_ids（每个对应请求 input 的一个 64-token KV block）。Subagent 调用被归组到其父轮次下。不存储任何 prompt 或 completion 文本——仅保存 token 计数和 block hash，因此语料库可共享，同时仍然是忠实的工作负载回放。

缓存前缀与未缓存后缀

Agentic 工作负载以 prefix 复用为主：每轮都会重新发送不断增长的对话，因此大部分 input 已在前几轮的 KV cache 中。我们精确重建了这一过程。在理想化的无限 cache 下按顺序遍历对话，某一轮的缓存前缀是其 hash_ids 中已出现过的最长前导序列；其余部分是需要（重新）计算的未缓存后缀。每个 block 为 64 个 token；拆分时会限制使缓存 + 未缓存等于该轮的有效 input，即使最后一个 block 不完整。Subagent 在 spawn 时针对父 cache 的快照运行（其上下文独立，不会合并回父级）。

数据集变体

full — 所有捕获的请求，不做修改。
256k — 丢弃 input + output 超过 256,000 token 的请求，确保每轮都在 256k 上下文窗口内（用于在配置 256k 最大上下文的引擎上进行基准测试）。

数据集

正在加载数据集…