跳转至

Studio Evaluation Datasets

本页用于维护评测数据集及其冻结版本,确保评测输入稳定、可复现、可追踪。

页面作用

  • 查看当前可用于评测的数据集
  • 区分草稿、冻结和发布前状态
  • 为后续评测运行准备稳定输入

谁会使用这个页面

  • 评测维护人员
  • Agent 质量负责人
  • 需要准备回归数据集的研发同学

所需权限

  • 读取页面需要 evaluation.read
  • 创建、冻结或更新数据集通常需要 evaluation.write

推荐操作方式

  1. 先确认是否已有可复用的数据集
  2. 创建数据集时先选择任务类型:chat 使用 CSV,document_recognition 使用 reviewed run promotion
  3. 需要稳定回归时优先使用冻结版本
  4. 数据集变更后再触发新的评测,而不是混用旧结果

Document-recognition 数据集

Document-recognition 数据集用于评测已注册的 document-recognition runtime agent。推荐流程:

  1. 在本页创建 task_type=document_recognition 的数据集,不上传 CSV。
  2. 前往 Document Recognition 页面,筛选并勾选 review_status=reviewed 的 runs。
  3. 点击 Add reviewed to eval dataset,选择目标数据集并提交。
  4. 回到数据集详情页确认 item 数量,冻结后再发起 evaluation run。

后端会在入集时复制源文档资产,在 freeze 时为 snapshot 再复制一次资产,因此 frozen dataset 不依赖原始识别 run 的对象路径。

常见问题

为什么要冻结数据集

如果不冻结,评测结果会随着样本变化而失去可比性。冻结的意义是让不同版本 Agent 面对同一组输入。

数据集更新后旧结果还能对比吗

可以保留,但应明确标记“旧结果对应的输入集版本”,不要直接与新数据集结果混比。

关联页面