Agentic 基准测试数据集

InferenceX 的 agentic 基准测试并非回放合成 prompt——而是回放真实的 Claude Code 编码会话,以对话 trace的形式捕获。每条 trace 是一次完整的多轮会话:包括主 agent 的各轮对话及其调用的所有 subagent,附带每轮的 input/output token 数以及重建 prefix-cache 复用所需的 64-token KV-cache block hash。这些 trace 在 HuggingFace 上以 semianalysisai/cc-traces-weka-* 公开发布(apache-2.0 协议)。

Trace 的采集方式

生产环境中的 Claude Code 会话通过日志代理录制,该代理捕获每个 API 请求的 input 和 output token 数、使用的模型、时间指标(TTFT、token 间延迟),以及一组 hash_ids(每个对应请求 input 的一个 64-token KV block)。Subagent 调用被归组到其父轮次下。不存储任何 prompt 或 completion 文本——仅保存 token 计数和 block hash,因此语料库可共享,同时仍然是忠实的工作负载回放。

缓存前缀与未缓存后缀

Agentic 工作负载以 prefix 复用为主:每轮都会重新发送不断增长的对话,因此大部分 input 已在前几轮的 KV cache 中。我们精确重建了这一过程。在理想化的无限 cache 下按顺序遍历对话,某一轮的缓存前缀是其 hash_ids 中已出现过的最长前导序列;其余部分是需要(重新)计算的未缓存后缀。每个 block 为 64 个 token;拆分时会限制使缓存 + 未缓存等于该轮的有效 input,即使最后一个 block 不完整。Subagent 在 spawn 时针对父 cache 的快照运行(其上下文独立,不会合并回父级)。

数据集变体

  • full — 所有捕获的请求,不做修改。
  • 256k — 丢弃 input + output 超过 256,000 token 的请求,确保每轮都在 256k 上下文窗口内(用于在配置 256k 最大上下文的引擎上进行基准测试)。

数据集

正在加载数据集…