评测参考

本页回答“当前项目里的评测并不只是一个数据集页面，而是一条包含导入、执行、裁判、gate、导出的完整离线链路”。

模块分层

层	路径	作用
数据集导入	`ai_service/services/evaluation_dataset_importer.py`	数据集导入与解析
运行调度	`ai_service/services/evaluation_runner.py`	run supervisor、resume、lease、slice 聚合
裁判	`ai_service/services/evaluation_judge.py`	judge prompt 快照与模型裁判
Gate	`ai_service/services/evaluation_gate.py`	gate 判断逻辑
指标	`ai_service/services/evaluation_metrics.py`	exact match、token f1 等指标
API 层	`ai_service/api/routers/evaluation.py`	dataset、run、result export、gate evaluate
存储层	`ai_service/storage/model_domains/evaluations.py`	dataset、run、result 持久化模型

这意味着当前评测体系已经同时覆盖“客观指标”与“模型裁判”两类判断方式。

系统	连接方式
编排器	可以评测 chat runtime 的真实输出
Fusion	可以评测 definition-driven run 的输出
模型配置	judge model 与 generation model 都会影响结果