RAG 知识库使用指南
本指南面向日常使用 Admin 后台的普通用户,重点说明“如何用好知识库”,而不是解释底层数据结构或内部实现。
如果你的目标是让 AI 更稳定地回答业务问题,通常只需要记住这条主线:
flowchart LR
A[创建知识源] --> B[上传文档]
B --> C[运行 Ingestion]
C --> D[做 Retrieval Test]
D --> E[挂载到 Agent]
E --> F[在线对话验证效果]
这篇文档适合谁
- 想把公司文档、FAQ、制度文件接入 AI 的运营或产品同学
- 想检查“为什么 AI 没答对”的客服、实施或知识库维护人员
- 想在不看代码的情况下完成上传、更新、测试和挂载的人
如果你想看数据库结构、接口字段或底层实现,请改看:
你能在 Knowledge Sources 里做什么
在 Admin 后台的 Knowledge Sources 页面,你主要会做 5 件事:
- 创建一个知识源
- 上传一批文档
- 运行 Ingestion,把文档处理成可检索内容
- 用
Retrieval Test检查是否能召回正确内容 - 把知识源挂载到某个 Agent 上,让它在对话里使用
你不需要先理解内部有哪些对象、表或任务,只要按上面的顺序操作即可。
开始前要准备什么
在上传文档前,建议先准备好这些内容:
- 文档主题尽量单一 例如“售后政策”“产品手册”“员工制度”,不要把毫不相关的内容混在一个知识源里。
- 文档内容尽量完整 不要只上传截图或残缺片段,尽量使用可复制文字的 PDF、Word、Markdown、TXT。
- 文档名称清晰
建议文件名能直接看出用途,例如
退款政策.md、员工手册-2026.pdf。 - 同一类内容放在同一个知识源 这样后续测试、更新和排查更简单。
推荐使用流程
1. 创建知识源
进入 Knowledge Sources 页面后,先创建一个知识源。
建议这样命名:
- 按业务场景命名,例如“客服知识库”“产品帮助中心”“内部制度库”
- 名称尽量稳定,不要把一次性活动名称写进去
描述建议写清楚:
- 这个知识源给谁用
- 里面放什么内容
- 什么时候需要更新
如果你不确定分块策略,先使用默认值即可,后面可以再优化。
2. 上传文档
进入某个知识源详情页后,在 Files 页签中上传文档。
推荐做法:
- 先上传少量代表性文档,验证效果后再批量导入
- 新旧版本不要同时保留,避免 AI 学到冲突内容
- 如果某份文件只是附件、目录页或空白模板,尽量不要上传
适合上传的内容包括:
- FAQ
- 产品说明
- 操作手册
- 政策制度
- 流程说明
- 培训材料
3. 运行 Ingestion
上传完成后,点击 Run Ingestion。
这一步的作用很简单:系统会把文档处理成 AI 可检索的内容。
你可以这样理解:
- 上传文档只是“放进去”
- Ingestion 才是“让 AI 真正能用”
什么时候需要重新运行 Ingestion:
- 新上传了文档
- 删除或替换了文档
- 修改了分块策略
- 文档内容发生明显变化
4. 用 Retrieval Test 检查效果
这是最重要的一步,也是最容易被忽略的一步。
进入知识源详情页的 Retrieval Test,输入一个真实用户会问的问题,检查系统是否召回了正确内容。
推荐测试方式:
- 不要只搜关键词,尽量输入完整问题 例如不要只输入“退款”,而是输入“订单支付后 24 小时内可以提现吗?”
- 用真实用户语言测试 包括口语化表达、错别字、简称、业务缩写
- 连续测 3 到 5 个典型问题 不要只测一个问题就判断知识库好坏
你主要看这几件事:
- 有没有召回正确文档
- 返回的 chunk 是否包含关键答案
- 返回内容是不是太散、太短或太长
- 明明文档里有答案,却完全没召回
如果 Retrieval Test 表现不好,不要急着改 Agent,先处理知识源本身。
5. 挂载到 Agent
当 Retrieval Test 表现正常后,再把这个知识源挂载到目标 Agent。
建议:
- 先挂载一个知识源验证效果,再逐步增加
- 不同用途的 Agent 挂载不同知识源,避免范围过大
- 如果多个知识源内容重叠,尽量先整理后再挂载
挂载完成后,再去对话页用真实问题验证最终效果。
常见场景怎么做
场景一:第一次搭建知识库
推荐顺序:
- 创建一个知识源
- 上传 3 到 10 份最核心的文档
- 运行 Ingestion
- 用
Retrieval Test测几个典型问题 - 没问题后再挂载给 Agent
不要一开始就导入几百份文件,否则出问题时很难排查。
场景二:更新已有知识库
如果只是补充新内容:
- 上传新增文档
- 运行 Ingestion
- 用
Retrieval Test验证新增问题
如果是替换旧版本:
- 删除旧文档
- 上传新文档
- 运行 Ingestion
- 重新测试旧问题和新问题
场景三:AI 回答不对,但你不确定问题在哪
先不要急着改 Prompt,也不要先怀疑模型。
请按这个顺序排查:
- 用
Retrieval Test测同一个问题 - 如果没有召回正确内容,问题通常在知识源
- 如果召回了正确内容,但对话答案仍然不对,再看 Agent 配置或回答策略
这是判断“检索问题”还是“生成问题”的最快方法。
场景四:文档已经上传,但检索效果一般
优先检查:
- 文档内容是否真的包含答案
- 文档是否是扫描件、格式混乱或文字过少
- 文件是否重复、冲突或版本混杂
- 一个知识源里是否塞了太多不相关内容
如果确认文档没问题,再考虑调整 chunking 或重新 ingestion。
如何判断一个知识源是否可用
一个知识源基本可用,通常满足这几个条件:
- 文档已经上传完成
- Ingestion 成功
Retrieval Test对典型问题能召回正确内容- 挂载到 Agent 后,对话结果明显比未挂载时更好
如果只是“上传成功”,还不能说明这个知识源能被 AI 用好。
Retrieval Test 怎么测才有价值
建议把测试问题分成 3 类:
1. 直接问法
例如:
- “退款流程是什么?”
- “合同审批需要谁签字?”
2. 用户真实问法
例如:
- “我想退钱应该怎么搞?”
- “这个合同是不是部门负责人批完就行?”
3. 边界问法
例如:
- “超过 7 天还能退款吗?”
- “没有发票能不能走报销?”
这样能更快发现知识库到底是“完全不能用”,还是“只在边界问题上表现差”。
不建议这样使用
- 把完全不同主题的文档混进同一个知识源
- 上传很多历史旧版本,却不清理过期内容
- 不做 Retrieval Test 就直接挂载给 Agent
- 一次改太多东西,导致不知道是哪一步影响了效果
- 把知识库问题误认为都是模型问题
常见问题
为什么我上传了文档,AI 还是答不出来?
常见原因:
- 还没有运行 Ingestion
- 文档虽然上传了,但内容不适合检索
- 问题表达和文档里的表述差异太大
- 知识源还没有挂载到对应 Agent
建议先做一次 Retrieval Test。
为什么我明明有答案,但召回内容不理想?
常见原因:
- 文档结构太乱
- 一个知识源里内容太杂
- 文件里有大量重复内容
- 当前分块方式不适合这类文档
先清理文档和结构,再考虑高级配置。
什么情况下要重新 Ingestion?
以下情况建议重跑:
- 上传了新文档
- 替换了旧文档
- 删除了文档
- 调整了 chunking 配置
- 想确认最新内容已经进入检索
什么时候才需要看 Inspect?
大多数普通用户不需要先看 Inspect。
只有在这些情况下才建议使用:
- Ingestion 成功了,但检索状态看起来异常
- 你怀疑某些文档没有正确进入向量检索
- 需要让技术同学一起排查数据状态
如果你只是想确认“能不能搜到”,优先用 Retrieval Test。
推荐的日常维护方式
- 新内容进入后,及时上传并重跑 Ingestion
- 旧版本失效后,尽快删除,避免冲突
- 每次更新后,都用 3 到 5 个典型问题做 Retrieval Test
- 把常错的问题记录下来,作为固定回归测试
给普通用户的简单建议
如果你不想研究太多细节,只记住这 4 条:
- 先上传少量高质量文档,不要一上来就全量导入
- 每次上传后都要运行 Ingestion
- 上线前一定要做 Retrieval Test
- 先确认检索是否正常,再去怀疑 Agent 或模型
进阶参考
如果你后续需要更深入的内容,再继续看这些文档: