Studio Document Recognition
本页用于管理单证识别相关的运行队列、人工复核与异常样本,而不是配置底层解析器实现。
页面作用
- 查看识别任务的当前处理状态
- 发现失败、低置信度或需要人工确认的样本
- 查看某个 run 的完整字段列表、当前审核状态与单字段 revision timeline
- 进入复核流程,缩短异常样本处理时间
- 历史列表会跳过损坏的历史行并继续渲染,避免单条脏数据把整页打成 500
- 对于部分历史 Fusion runs,
agent_id可能为空;列表仍会显示,但某些依赖 agent 上下文的跳转能力可能退化 - Studio 在本任务中继续保持字段只读;这里不会新增第二个字段编辑入口
谁会使用这个页面
- 识别运营人员
- 负责样本复核的实施或业务团队
- 需要确认识别链路是否稳定的管理员
所需权限
- 读取页面需要
document_recognition.read - 修改可选 Fusion runtime registry 需要
document_recognition.write,写入会进入后台审计
典型操作流程
- 先看队列是否存在堆积或失败上升
- 如需让某个 Fusion agent 成为可用识别运行器,先在页面顶部的
Selectable Fusion runtimes面板,按 agent name 从候选列表中选择对应 runtime - 过滤出异常任务或待复核任务
- 打开任务详情确认识别结果与原始输入
- 在右侧 inspector 查看完整字段列表、revision summary 和单字段 timeline
- 如需真正修订字段,跳回 Outlook Index 使用 canonical field-review PATCH 路径处理
- 对已经完成复核的 runs,可批量选择并点击
Add reviewed to eval dataset,加入task_type=document_recognition的评测数据集
加入评测集
Document Recognition 页面支持把 reviewed runs 直接提升为评测样本:
- 只有
review_status=reviewed的 runs 会被提交;未 reviewed 的选择会被跳过并提示。 - 目标数据集必须是未冻结的
task_type=document_recognitionevaluation dataset。 - 后端会复制源文档资产,并把人工复核后的字段值、页码与 bbox 诊断写入评测 item。
- 冻结数据集后,evaluation run 会面向已注册的 document-recognition runtime agent 执行。
设置可用 Fusion runtime
Document Recognition 可用的 Fusion agent,不是从普通页面开关里自动推导出来的,而是来自单独的 runtime registry。
- 在 Studio 的
Document Recognition页面顶部,使用Selectable Fusion runtimes面板 - 先按名称、描述或
agent_id搜索目标 Fusion agent - 在候选列表中确认名称与描述后点击
Add - 页面不会要求输入管理员密码;后端只校验已登录管理员是否具备
document_recognition.write - 已登记的 agent 会出现在左侧列表,可直接移除
底层持久化键为 document_recognition.selectable_fusion_agent_ids。
名称和描述来自 Fusion agent 本身,agent_id 只作为辅助元数据和稳定内部引用。
这个页面只控制“是否允许它成为 document-recognition runtime”,不会为 Fusion Agent 创建或设置密码。
只有已存在且 agent_type = fusion 的 agent ID 才能登记成功。
排查建议
失败任务突然增多
先看失败是否集中在同一种来源、同一种文档类型或同一时间段,再判断是输入质量问题、外部依赖问题,还是规则回归。
识别成功但字段质量差
这通常不是队列问题,而是样本质量、字段定义或解析策略问题。需要结合具体任务详情继续看。
字段 Inspector
- 详情抽屉会展示选中 run 的全部
field_reviews,不再只截取前几个字段 - inspector 不依赖 Outlook
MANAGE布局,因此即使某些字段在工作台表单里被隐藏,这里仍可见 - 每个字段会显示
revision_count、是否已偏离 baseline、最近修订时间和展示型 reviewer identity 快照 - 选中字段后,页面会按需拉取该字段的 revision timeline
- 对于没有 ledger 的历史旧 run,页面会显示 baseline 快照并标记
未记录历史 - 该 inspector 只读;Studio 不会发起字段 PATCH