跳转至

评测参考

本页回答“当前项目里的评测并不只是一个数据集页面,而是一条包含导入、执行、裁判、gate、导出的完整离线链路”。

模块分层

路径 作用
数据集导入 ai_service/services/evaluation_dataset_importer.py 数据集导入与解析
运行调度 ai_service/services/evaluation_runner.py run supervisor、resume、lease、slice 聚合
裁判 ai_service/services/evaluation_judge.py judge prompt 快照与模型裁判
Gate ai_service/services/evaluation_gate.py gate 判断逻辑
指标 ai_service/services/evaluation_metrics.py exact match、token f1 等指标
API 层 ai_service/api/routers/evaluation.py dataset、run、result export、gate evaluate
存储层 ai_service/storage/model_domains/evaluations.py dataset、run、result 持久化模型

当前能力面

Datasets

  • 创建与更新 dataset
  • CSV 导入
  • 冻结快照
  • item 列表查询

Runs

  • 创建 evaluation run
  • supervisor 恢复 stale runs
  • slice 级汇总
  • result 级详情
  • CSV 导出

Judgment 与 Gate

  • 既有基于规则和指标的结果
  • 也有 judge model 输出
  • 还会单独计算 gate 结果

这意味着当前评测体系已经同时覆盖“客观指标”与“模型裁判”两类判断方式。

与其他系统的连接点

系统 连接方式
编排器 可以评测 chat runtime 的真实输出
Fusion 可以评测 definition-driven run 的输出
模型配置 judge model 与 generation model 都会影响结果

读代码时的典型切入点

想查数据集为什么导入失败

  1. ai_service/api/routers/evaluation.py
  2. ai_service/services/evaluation_dataset_importer.py

想查 run 为什么卡住

  1. ai_service/services/evaluation_runner.py
  2. lease / resume 相关逻辑

想查为什么 gate 判定异常

  1. ai_service/services/evaluation_gate.py
  2. ai_service/services/evaluation_judge.py
  3. ai_service/services/evaluation_metrics.py

相关文档