跳转至

Project Chameleon AI Agent 平台

Studio Evaluation Datasets

Studio Evaluation Datasets

本页用于维护评测数据集及其冻结版本，确保评测输入稳定、可复现、可追踪。

页面作用

查看当前可用于评测的数据集
区分草稿、冻结和发布前状态
为后续评测运行准备稳定输入

谁会使用这个页面

评测维护人员
Agent 质量负责人
需要准备回归数据集的研发同学

所需权限

读取页面需要 evaluation.read
创建、冻结或更新数据集通常需要 evaluation.write

推荐操作方式

先确认是否已有可复用的数据集
创建数据集时先选择任务类型：chat 使用 CSV，document_recognition 使用 reviewed run promotion
需要稳定回归时优先使用冻结版本
数据集变更后再触发新的评测，而不是混用旧结果

Document-recognition 数据集

Document-recognition 数据集用于评测已注册的 document-recognition runtime agent。推荐流程：

在本页创建 task_type=document_recognition 的数据集，不上传 CSV。
前往 Document Recognition 页面，筛选并勾选 review_status=reviewed 的 runs。
点击 Add reviewed to eval dataset，选择目标数据集并提交。
回到数据集详情页确认 item 数量，冻结后再发起 evaluation run。

后端会在入集时复制源文档资产，在 freeze 时为 snapshot 再复制一次资产，因此 frozen dataset 不依赖原始识别 run 的对象路径。

常见问题

为什么要冻结数据集

如果不冻结，评测结果会随着样本变化而失去可比性。冻结的意义是让不同版本 Agent 面对同一组输入。

数据集更新后旧结果还能对比吗

可以保留，但应明确标记“旧结果对应的输入集版本”，不要直接与新数据集结果混比。

关联页面