RAG 技术 05 - 检索
检索是 RAG 的核心,提供了准确的上下文才能正确输出答案,如果提供无关甚至错误的上下文,那么将得到错误答案
检索是 RAG 的核心,提供了准确的上下文才能正确输出答案,如果提供无关甚至错误的上下文,那么将得到错误答案
检索过程非常依赖用户输入,在使用 “用户提问” 按照索引的方式去检索文档时,需要对 “用户提问” 先加工,主要包括重写和扩展等,以便提高检索的准确性
数据提取的目的是从文本或者非文本的文件中提取文本,难点在于非文本文件的处理,如:PDF、xlsx 等文件,包括文件内部的表格、图片的处理
索引是构建原始文本块的另一种表示方式,以便在后续能通过该表示方式快速检索到相关上下文
在构建 RAG 应用时,提前对接入的知识进行预处理,能减轻检索的压力,提升回答的准确度
RAG (Retrieval-Augmented Generation) 又称检索增强生成,通过外部知识改善 llm 的幻觉、即时性和专业性
RAG 的早期主要包括:索引、检索、生成阶段,也被称为 Naive RAG
在文章利用 langchian 搭建通用的表格数据分析工具 | 年轻人起来冲中,我们针对 RAG 回答统计、分析类问题的能力弱的问题,我们通过对问题分类,使用生成 pandas 代码的方式完成回答。但是这个方式存在一个问题,即无法处理多个表格,本文扩展使用场景,将其扩展到可以使用多表格的领域
本文记录在 linux 安装 docker,并进行配置
在 github page 使用构建的网站,访问速度慢,并且国内无法检索到,因此为了后续备案网站的需求,计划将 hexo 部署到腾讯云