RAG 运维

这页面向管理员、实施和知识库维护者，重点不是解释算法，而是回答“日常要怎么把知识库维护在一个稳定、可解释、可修复的状态”。

标准操作顺序

创建知识源
上传少量代表性文档
运行 inspect 或 ingestion
用 Retrieval Test 验证真实问题是否能命中
挂载到目标 Agent
在在线对话中复验
如果线上效果异常，再进入 debug / inspection / rebuild 链路

关键入口

Studio Knowledge Sources
Studio Agent Detail
Conversations 中的 RAG debug 与 correction publish
Manual inspection
Snapshot rebuild

日常维护动作

1. 新建知识源

适合放进同一个 source 的内容应满足：

主题相对单一
chunking 策略需求相近
会被同一批 Agent 挂载

不要把完全不同业务线的文档长期混进同一个 source。

2. 小批量导入，再放大

推荐先上传少量高代表性文档，验证：

parser 是否能稳定解析
chunking 是否合理
retrieval test 是否能命中真实问题

验证通过后再扩大导入范围。

3. 挂载到 Agent 前先做 Retrieval Test

不要先把 source 挂到线上 Agent，再用真实用户问题试错。

更稳妥的顺序是：

source 内完成 ingestion
对若干真实 query 运行 retrieval test
确认命中质量可接受后再挂载

出问题时怎么分流

症状 A: 文档上传成功，但一直不可用

优先检查：

document status
ingestion job 状态
parser / embedding 阶段是否报错

症状 B: 文档显示 indexed，但检索不到

优先动作：

跑 RAG debug
看 active sources 是否正确
跑 manual inspection 的 vector_health

如果向量异常，再考虑 snapshot rebuild。

症状 C: 检索能命中，但相关性很差

优先动作：

跑 retrieval test
检查 chunking 是否过碎或过粗
用 manual inspection 的 chunking_preview 预估换策略后的形态
再决定要不要重跑 ingestion

症状 D: 对话答案里有稳定错误，需要长期修补

不要手动改 managed correction source。

正确动作是：

在对话上下文里保存 correction draft
走 correction publish
让系统生成 managed correction source 文档并进入正式检索链路

当前运维工具分别适合解决什么问题

工具	适合的问题
Retrieval Test	某个 query 是否能命中正确 chunk
RAG Debug	为什么这次召回 / 没召回
Manual Inspection `vector_health`	向量是否实际存在于 Qdrant
Manual Inspection `chunking_preview`	另一种 chunking 策略会切成什么样
Snapshot Rebuild	parse snapshot 还在，但现有索引需要重建
Correction Publish	把线上纠错变成正式知识输入

操作原则

一个知识源尽量只承载单一业务主题
文档替换时避免新旧冲突版本长期并存
先用真实问题做 retrieval test，再扩大导入范围
调 chunking 前先做 preview，不要直接重跑全量 ingestion
发现线上知识错误时优先走 correction publish，而不是直接篡改历史数据
不要把 indexed 当成“绝对健康”，还要关注 vector_status

什么时候需要重建

考虑 rebuild 的典型场景：

parse snapshot 存在，但当前向量状态异常
chunking 策略需要整体切换
文档内容没有问题，但索引状态已经漂移

如果只是 query 选得不好，先做 retrieval test 和 debug，不要立刻重建。