第 4 章:知识库(RAG):让 AI 拥有你的专属知识

检索增强生成(RAG)是 Dify 的核心杀手锏。通过将私有文档导入知识库,你可以让 AI 摆脱“幻觉”,基于你提供的真实数据进行回答。
4.1 RAG 技术简介:为何需要 RAG?
大模型(LLM)的训练数据是有截止日期的,且无法获知你的私有信息。RAG 就像是给 AI 准备了一本“参考书”,当用户提问时,AI 先去书里查资料,再结合资料组织语言回答。
4.2 创建与管理知识库
- 在 Dify 顶部菜单选择 知识库 (Knowledge)。
- 点击 创建知识库 (Create Knowledge)。
- 上传文档:支持 PDF, TXT, MD, DOCX, CSV 等多种格式。你也可以通过 Notion 导入或 Web 爬虫抓取。
4.3 文本处理与分段策略
这是决定 RAG 效果的关键步骤。Dify 提供三种分段模式:
| 模式 | 特点 | 适用场景 |
|---|---|---|
| 通用模式 (General) | 简单直接,按固定长度分块。 | 普通文章、新闻、说明书。 |
| 父子模式 (Parent-Child) | 将文档分为“父段落”(大块上下文)和“子分段”(小块检索点)。检索子段落,回答时参考父段落。 | 结构复杂的长文档、法律条文。 |
| 问答模式 (Q&A) | 将文本自动转化为“提问-回答”对。 | 常见问题集 (FAQ)、客服知识库。 |
4.4 索引方式与检索设置
- 高质量模式 (High Quality):调用 Embedding 模型进行向量化。虽然消耗 Token,但检索最精准。
- 经济模式 (Economy):使用关键词搜索(倒排索引)。不消耗 Token,但无法理解语义。
检索设置技巧:
- Top K:设置返回相关度最高的前几个片段(通常设为 3-5)。
- Score Threshold:设置相似度阈值,过滤掉不相关的噪音。
4.5 在应用中集成知识库
- 回到你的应用编排界面。
- 在 上下文 (Context) 中添加你刚刚创建的知识库。
- 在提示词中使用变量引用知识库内容(Dify 会自动处理这一步)。
下一章预告:我们将学习 Dify 最强大的逻辑大脑——工作流 (Workflow),带你从简单的对话进阶到复杂的业务流程自动化。
© 版权声明
若无特殊声明,本站所有文章版权均归「PMKG AI知识库」原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。
相关文章
暂无笔记...



