Studio Runbooks
Studio 是管理员和实施团队的日常控制面。这里不再只列栏目名,而是把高频任务拆成可执行 runbook。
适用对象
- 平台管理员
- 实施 / 运营同学
- 需要在 Studio 上排查知识、工具、评测、对话问题的研发
任务总览
| 任务 | 先看哪里 | 成功标志 |
|---|---|---|
| 管理 Agent 与运行时配置 | Agent 列表、Agent Detail、Fusion 工作区 | Agent 配置已保存,运行时 key / 挂载关系正确 |
| 维护 knowledge source 与 ingestion | Knowledge source 页面、RAG debug、manual inspection | source 已挂载,文档已 indexed,检索结果可解释 |
| 管理 MCP server、凭据和挂载 | MCP Servers 页面、health check、test call | server 可用、credential 生效、agent mount 正确 |
| 维护 evaluation datasets 与运行 | Evaluation Datasets 页面、run 结果页 | dataset 可导入、run 可启动、结果可导出 |
| 查看 conversations、audit、takeover | Conversations、Audit Logs | session 状态、trace、turn context 可追溯 |
| 管理 scheduled tasks | Scheduled Tasks 页面与后台记录 | task 创建成功、next run 正确、run history 正常 |
Runbook 1: Agent 与运行时配置
目标
确认一个 Agent 的类型、orchestrator、模型、RAG、MCP、Skill 或 Fusion 绑定符合预期。
关键入口
- Agent 列表与详情页
- Fusion 工作区
- 模型配置页面
后端真相源
ai_service/api/routers/agents.pyai_service/orchestrator/registry.pyai_service/fusion/application/use_cases/manage_definition.py
失败症状
- Agent 页面保存成功,但聊天行为没有变化
- Fusion Agent 仍然执行旧 definition
- 模型路由或 MCP response config 没生效
排查动作
- 先确认 Agent 版本和当前生效配置是否一致
- 再确认
orchestrator_key、模型路由、MCP runtime config 是否真的持久化 - 如果是 Fusion 相关问题,检查 Agent 与 definition 的 link 是否已同步
Runbook 2: Knowledge Source 与检索质量
目标
确认知识源是否成功挂载、文档是否完成摄取、检索质量问题属于哪一层。
关键入口
- Knowledge source 页面
- 文档列表
- RAG debug
- Manual inspection
后端真相源
ai_service/api/routers/knowledge.pyai_service/services/ingestion.pyai_service/services/rag_debug.pyai_service/services/manual_inspection.pyai_service/services/snapshot_rebuild.py
常见症状与动作
| 症状 | 优先动作 |
|---|---|
| 文档上传后一直不可用 | 先看 ingestion job 状态与 document status |
| 文档显示 indexed 但检索不到 | 先跑 RAG debug,再看 vector health |
| 怀疑 chunking 不合适 | 跑 manual inspection 的 chunking_preview |
| 怀疑向量丢失或 collection 不一致 | 跑 manual inspection 的 vector_health,必要时 snapshot rebuild |
| 对话中知识错误需要长期修正 | 走 conversation correction 发布链路,不要手改 managed correction source |
Runbook 3: MCP Server 与工具调用
目标
确认 MCP server 是否可连接、凭据是否可用、agent 是否正确挂载。
关键入口
- MCP Servers 页面
- Health check
- Test call
- Agent MCP mounts
后端真相源
ai_service/api/routers/mcp.pyai_service/services/mcp_client.pyai_service/services/mcp_secret_manager.pyai_service/services/mcp_policy.pyai_service/services/mcp_audit.py
常见症状与动作
| 症状 | 优先动作 |
|---|---|
| health check 失败 | 先确认 transport type 与 connection config 是否匹配 |
| list tools 为空 | 检查 credential 注入、timeout、server status |
| 工具能测通但聊天里不触发 | 检查 agent mount、policy、MCP response config |
| 返回内容不符合预期 | 检查 quick match / intent gate / direct response field catalog |
Runbook 4: Evaluation Dataset 与 Run
目标
确认评测数据可导入、评测 run 正常执行、结果可导出和复盘。
关键入口
- Evaluation Datasets 页面
- Evaluation Run 详情页
- CSV import / export
后端真相源
ai_service/api/routers/evaluation.pyai_service/services/evaluation_dataset_importer.pyai_service/services/evaluation_runner.pyai_service/services/evaluation_judge.pyai_service/services/evaluation_gate.py
常见症状与动作
| 症状 | 优先动作 |
|---|---|
| 数据集导入失败 | 先看 CSV 解析和 import error |
| run 一直卡住 | 检查 runner supervisor、lease、resume 状态 |
| gate 结果异常 | 检查 gate policy 与 judge 输出 |
| 想导出结果给外部复盘 | 走 results export,而不是手查数据库 |
Runbook 5: Conversations、Audit 与人工接管
目标
确认单个会话的 turn、上下文、审计记录、takeover 事件可追溯。
关键入口
- Conversations 页面
- Audit Logs
- Turn context / trace 链接
后端真相源
ai_service/conversations/interfaces/http/router.pyai_service/services/runtime_checkpoint_service.pyai_service/services/admin_audit.pyai_service/services/mcp_audit.pyai_service/services/skill_audit.py
常见症状与动作
| 症状 | 优先动作 |
|---|---|
| 会话消息正常,但上下文看不懂 | 打开 turn context snapshot |
| MCP / Skill 调用了,但前台没解释清楚 | 查对应 trace id 下的 audit 记录 |
| 需要人工接管或释放接管 | 先看 session takeover 状态,再执行接管/释放动作 |
Runbook 6: Scheduled Tasks
目标
确认会话定时任务是否创建成功、触发时间正确、执行历史可追溯。
关键入口
- Scheduled Tasks 页面
- Task run history
后端真相源
ai_service/api/routers/scheduled_tasks.pyai_service/services/scheduled_tasks.pyai_service/services/timer_scheduler.py
常见症状与动作
| 症状 | 优先动作 |
|---|---|
| task 创建失败 | 检查 schedule payload、timezone、payload.prompt |
| next run 不符合预期 | 检查 schedule_kind、interval / cron 解析、timezone |
| task 已创建但没有执行 | 检查 timer scheduler 是否在跑、task 状态是否被 cancel |
| run 有记录但没有 usage 信息 | 检查 linked conversation turn 是否存在 |
发生故障时的最小判断顺序
- 先分清问题属于 Agent、Knowledge、MCP、Evaluation、Conversation 还是 Scheduled Task
- 再定位是控制面数据错误、运行时执行错误,还是外部依赖错误
- 优先使用 Studio 自带的 debug / audit / run history,而不是先连数据库手查