评测参考
本页回答“当前项目里的评测并不只是一个数据集页面,而是一条包含导入、执行、裁判、gate、导出的完整离线链路”。
模块分层
| 层 | 路径 | 作用 |
|---|---|---|
| 数据集导入 | ai_service/services/evaluation_dataset_importer.py |
数据集导入与解析 |
| 运行调度 | ai_service/services/evaluation_runner.py |
run supervisor、resume、lease、slice 聚合 |
| 裁判 | ai_service/services/evaluation_judge.py |
judge prompt 快照与模型裁判 |
| Gate | ai_service/services/evaluation_gate.py |
gate 判断逻辑 |
| 指标 | ai_service/services/evaluation_metrics.py |
exact match、token f1 等指标 |
| API 层 | ai_service/api/routers/evaluation.py |
dataset、run、result export、gate evaluate |
| 存储层 | ai_service/storage/model_domains/evaluations.py |
dataset、run、result 持久化模型 |
当前能力面
Datasets
- 创建与更新 dataset
- CSV 导入
- 冻结快照
- item 列表查询
Runs
- 创建 evaluation run
- supervisor 恢复 stale runs
- slice 级汇总
- result 级详情
- CSV 导出
Judgment 与 Gate
- 既有基于规则和指标的结果
- 也有 judge model 输出
- 还会单独计算 gate 结果
这意味着当前评测体系已经同时覆盖“客观指标”与“模型裁判”两类判断方式。
与其他系统的连接点
| 系统 | 连接方式 |
|---|---|
| 编排器 | 可以评测 chat runtime 的真实输出 |
| Fusion | 可以评测 definition-driven run 的输出 |
| 模型配置 | judge model 与 generation model 都会影响结果 |
读代码时的典型切入点
想查数据集为什么导入失败
ai_service/api/routers/evaluation.pyai_service/services/evaluation_dataset_importer.py
想查 run 为什么卡住
ai_service/services/evaluation_runner.py- lease / resume 相关逻辑
想查为什么 gate 判定异常
ai_service/services/evaluation_gate.pyai_service/services/evaluation_judge.pyai_service/services/evaluation_metrics.py