Studio Runbooks

Studio 是管理员和实施团队的日常控制面。这里不再只列栏目名，而是把高频任务拆成可执行 runbook。

适用对象

平台管理员
实施 / 运营同学
需要在 Studio 上排查知识、工具、评测、对话问题的研发

任务总览

任务	先看哪里	成功标志
管理 Agent 与运行时配置	Agent 列表、Agent Detail、Fusion 工作区	Agent 配置已保存，运行时 key / 挂载关系正确
维护 knowledge source 与 ingestion	Knowledge source 页面、RAG debug、manual inspection	source 已挂载，文档已 indexed，检索结果可解释
管理 MCP server、凭据和挂载	MCP Servers 页面、health check、test call	server 可用、credential 生效、agent mount 正确
维护 evaluation datasets 与运行	Evaluation Datasets 页面、run 结果页	dataset 可导入、run 可启动、结果可导出
查看 conversations、audit、takeover	Conversations、Audit Logs	session 状态、trace、turn context 可追溯
管理 scheduled tasks	Scheduled Tasks 页面与后台记录	task 创建成功、next run 正确、run history 正常

Runbook 1: Agent 与运行时配置

目标

确认一个 Agent 的类型、orchestrator、模型、RAG、MCP、Skill 或 Fusion 绑定符合预期。

关键入口

Agent 列表与详情页
Fusion 工作区
模型配置页面

后端真相源

ai_service/api/routers/agents.py
ai_service/orchestrator/registry.py
ai_service/fusion/application/use_cases/manage_definition.py

失败症状

Agent 页面保存成功，但聊天行为没有变化
Fusion Agent 仍然执行旧 definition
模型路由或 MCP response config 没生效

排查动作

先确认 Agent 版本和当前生效配置是否一致
再确认 orchestrator_key、模型路由、MCP runtime config 是否真的持久化
如果是 Fusion 相关问题，检查 Agent 与 definition 的 link 是否已同步

Runbook 2: Knowledge Source 与检索质量

目标

确认知识源是否成功挂载、文档是否完成摄取、检索质量问题属于哪一层。

关键入口

Knowledge source 页面
文档列表
RAG debug
Manual inspection

后端真相源

ai_service/api/routers/knowledge.py
ai_service/services/ingestion.py
ai_service/services/rag_debug.py
ai_service/services/manual_inspection.py
ai_service/services/snapshot_rebuild.py

常见症状与动作

症状	优先动作
文档上传后一直不可用	先看 ingestion job 状态与 document status
文档显示 indexed 但检索不到	先跑 RAG debug，再看 vector health
怀疑 chunking 不合适	跑 manual inspection 的 `chunking_preview`
怀疑向量丢失或 collection 不一致	跑 manual inspection 的 `vector_health`，必要时 snapshot rebuild
对话中知识错误需要长期修正	走 conversation correction 发布链路，不要手改 managed correction source

Runbook 3: MCP Server 与工具调用

目标

确认 MCP server 是否可连接、凭据是否可用、agent 是否正确挂载。

关键入口

MCP Servers 页面
Health check
Test call
Agent MCP mounts

后端真相源

ai_service/api/routers/mcp.py
ai_service/services/mcp_client.py
ai_service/services/mcp_secret_manager.py
ai_service/services/mcp_policy.py
ai_service/services/mcp_audit.py

常见症状与动作

症状	优先动作
health check 失败	先确认 transport type 与 connection config 是否匹配
list tools 为空	检查 credential 注入、timeout、server status
工具能测通但聊天里不触发	检查 agent mount、policy、MCP response config
返回内容不符合预期	检查 quick match / intent gate / direct response field catalog

Runbook 4: Evaluation Dataset 与 Run

目标

确认评测数据可导入、评测 run 正常执行、结果可导出和复盘。

关键入口

Evaluation Datasets 页面
Evaluation Run 详情页
CSV import / export

后端真相源

ai_service/api/routers/evaluation.py
ai_service/services/evaluation_dataset_importer.py
ai_service/services/evaluation_runner.py
ai_service/services/evaluation_judge.py
ai_service/services/evaluation_gate.py

常见症状与动作

症状	优先动作
数据集导入失败	先看 CSV 解析和 import error
run 一直卡住	检查 runner supervisor、lease、resume 状态
gate 结果异常	检查 gate policy 与 judge 输出
想导出结果给外部复盘	走 results export，而不是手查数据库

Runbook 5: Conversations、Audit 与人工接管

目标

确认单个会话的 turn、上下文、审计记录、takeover 事件可追溯。

关键入口

Conversations 页面
Audit Logs
Turn context / trace 链接

后端真相源

ai_service/conversations/interfaces/http/router.py
ai_service/services/runtime_checkpoint_service.py
ai_service/services/admin_audit.py
ai_service/services/mcp_audit.py
ai_service/services/skill_audit.py

常见症状与动作

症状	优先动作
会话消息正常，但上下文看不懂	打开 turn context snapshot
MCP / Skill 调用了，但前台没解释清楚	查对应 trace id 下的 audit 记录
需要人工接管或释放接管	先看 session takeover 状态，再执行接管/释放动作

Runbook 6: Scheduled Tasks

目标

确认会话定时任务是否创建成功、触发时间正确、执行历史可追溯。

关键入口

Scheduled Tasks 页面
Task run history

后端真相源

ai_service/api/routers/scheduled_tasks.py
ai_service/services/scheduled_tasks.py
ai_service/services/timer_scheduler.py

常见症状与动作

症状	优先动作
task 创建失败	检查 schedule payload、timezone、payload.prompt
next run 不符合预期	检查 `schedule_kind`、interval / cron 解析、timezone
task 已创建但没有执行	检查 timer scheduler 是否在跑、task 状态是否被 cancel
run 有记录但没有 usage 信息	检查 linked conversation turn 是否存在

发生故障时的最小判断顺序

先分清问题属于 Agent、Knowledge、MCP、Evaluation、Conversation 还是 Scheduled Task
再定位是控制面数据错误、运行时执行错误，还是外部依赖错误
优先使用 Studio 自带的 debug / audit / run history，而不是先连数据库手查

Studio Runbooks

适用对象

任务总览

Runbook 1: Agent 与运行时配置

目标

关键入口

后端真相源

失败症状

排查动作

Runbook 2: Knowledge Source 与检索质量

目标

关键入口

后端真相源

常见症状与动作

Runbook 3: MCP Server 与工具调用

目标

关键入口

后端真相源

常见症状与动作

Runbook 4: Evaluation Dataset 与 Run

目标

关键入口

后端真相源

常见症状与动作

Runbook 5: Conversations、Audit 与人工接管

目标

关键入口

后端真相源

常见症状与动作

Runbook 6: Scheduled Tasks

目标

关键入口

后端真相源

常见症状与动作

发生故障时的最小判断顺序

相关系统