Studio Evaluation Datasets
本页用于维护评测数据集及其冻结版本,确保评测输入稳定、可复现、可追踪。
页面作用
- 查看当前可用于评测的数据集
- 区分草稿、冻结和发布前状态
- 为后续评测运行准备稳定输入
谁会使用这个页面
- 评测维护人员
- Agent 质量负责人
- 需要准备回归数据集的研发同学
所需权限
- 读取页面需要
evaluation.read - 创建、冻结或更新数据集通常需要
evaluation.write
推荐操作方式
- 先确认是否已有可复用的数据集
- 创建数据集时先选择任务类型:
chat使用 CSV,document_recognition使用 reviewed run promotion - 需要稳定回归时优先使用冻结版本
- 数据集变更后再触发新的评测,而不是混用旧结果
Document-recognition 数据集
Document-recognition 数据集用于评测已注册的 document-recognition runtime agent。推荐流程:
- 在本页创建
task_type=document_recognition的数据集,不上传 CSV。 - 前往
Document Recognition页面,筛选并勾选review_status=reviewed的 runs。 - 点击
Add reviewed to eval dataset,选择目标数据集并提交。 - 回到数据集详情页确认 item 数量,冻结后再发起 evaluation run。
后端会在入集时复制源文档资产,在 freeze 时为 snapshot 再复制一次资产,因此 frozen dataset 不依赖原始识别 run 的对象路径。
常见问题
为什么要冻结数据集
如果不冻结,评测结果会随着样本变化而失去可比性。冻结的意义是让不同版本 Agent 面对同一组输入。
数据集更新后旧结果还能对比吗
可以保留,但应明确标记“旧结果对应的输入集版本”,不要直接与新数据集结果混比。