跳转至

评测系统

评测系统负责把“平台觉得变好了”变成可复现、可对比、可回归监控的数据结构。

关注的问题

  • 如何统一记录 Agent 执行过程与中间产物
  • 如何在同一数据集上比较不同 Agent、运行时或模型路由
  • 如何把离线评测和线上观察收敛到相近口径

核心对象

  • dataset
  • evaluation run
  • step trace
  • artifact
  • metric record

继续阅读