评测数据集

数据集是评测系统的输入真相源，负责定义样本、期望结果和证据。

最小字段

task_type=document_recognition 的数据集不通过 CSV 手工导入。它们由 Studio Document Recognition 页面把 review_status=reviewed 的识别运行提升入集：

入集时后端会复制源文档到 evaluation dataset storage，并把 reviewed field truth 写入 item 的 expected_output。
冻结数据集时会再次复制源文档到 snapshot dataset storage，并重写 item 的 source_asset.source_object_key，保证冻结版本可独立回放。
评测运行只能针对已注册的 document-recognition runtime agent 发起。
runner 从 Fusion output record 读取 json_value 后再执行 canonical prediction normalization；record-level Fusion repository parser 不直接传入 normalization selector。
v1 headline 分数继续使用 exact_match、token_f1、pass_rate；字段级 value/page/bbox 诊断保存在 rule_score_json。