RAG 的 Indexing 优化之 StructuralOrganization
ChunkOptimization 是直接修改 Chunk 的内容,而 StructuralOrganization 集中在如何通过组织 Chunk,实现更加高效的检索
分层 Indexing
建立分层结构是增强信息检索的一种有效方法。通过构建文档的分层结构,可以加快相关数据的检索与处理
检索过程从较宽的数据块或父节点开始,然后在链接到所选父节点的较小数据块或子节点中进行更集中的搜索。分层索引不仅可以提高检索效率,还可以最大限度地减少最终输出中包含不相关的数据
构建结构化索引的方法主要包括:
- 1)基于段落和句子分割的结构感知;
- 2)基于 PDF、HTML 和 Latex 等内在结构的内容感知;
- 3)基于语义识别和分割的语义感知
知识图谱检索
图形搜索利用知识图谱来增强信息检索。通过将数据表示为图形,其中节点表示实体,边缘表示关系,您可以发现关键字搜索或语义搜索方法可能会遗漏的复杂联系。当您输入查询时,图形搜索算法会导航这些关系,从而允许您根据数据的互连性检索直接匹配项和上下文相关信息
此方法对于涉及复杂数据集的应用程序特别有用,在这些应用程序中,了解关系是获得见解的关键。要使用 Graph Search,您必须首先使用 LLM 将数据转换为知识图谱,然后使用 Cypher 查询根据用户查询检索数据
知识图谱能解决一些全局性的复杂问题