评测系统 评测系统负责把“平台觉得变好了”变成可复现、可对比、可回归监控的数据结构。 关注的问题 如何统一记录 Agent 执行过程与中间产物 如何在同一数据集上比较不同 Agent、运行时或模型路由 如何把离线评测和线上观察收敛到相近口径 核心对象 dataset evaluation run step trace artifact metric record 继续阅读 架构 数据集 运行生命周期 参考