RAG 技术 01 - 数据提取
数据提取的目的是从文本或者非文本的文件中提取文本,难点在于非文本文件的处理,如:PDF、xlsx 等文件,包括文件内部的表格、图片的处理
读取文本
直接读取即可,在 langchian 中使用以下代码读取
1 | from langchain.document_loaders import TextLoader |
读取 xlsx
1 | from langchain.document_loaders.csv_loader import CSVLoader |
Pdf 文档
使用第三方库 pypdf 实现
1 | from langchain.document_loaders import PyPDFLoader |