跳转至

评测数据集

数据集是评测系统的输入真相源,负责定义样本、期望结果和证据。

最小字段

  • item_id
  • input_payload
  • expected_output
  • gold_evidence
  • dataset_version

使用原则

  • 样本要能复现真实业务问题
  • 版本要稳定,可回放
  • 数据集与指标应当按任务类型组合,而不是全站统一一个成功定义

Document-recognition 数据集

task_type=document_recognition 的数据集不通过 CSV 手工导入。它们由 Studio Document Recognition 页面把 review_status=reviewed 的识别运行提升入集:

  • 入集时后端会复制源文档到 evaluation dataset storage,并把 reviewed field truth 写入 item 的 expected_output
  • 冻结数据集时会再次复制源文档到 snapshot dataset storage,并重写 item 的 source_asset.source_object_key,保证冻结版本可独立回放。
  • 评测运行只能针对已注册的 document-recognition runtime agent 发起。
  • runner 从 Fusion output record 读取 json_value 后再执行 canonical prediction normalization;record-level Fusion repository parser 不直接传入 normalization selector。
  • v1 headline 分数继续使用 exact_matchtoken_f1pass_rate;字段级 value/page/bbox 诊断保存在 rule_score_json