使用 llm 删除冗余信息
如果多个文档存在类似内容时,在返回 top 可相近文档时,会存在冗余内容,并且导致检索到其他相关文档能力下降,因此需要对冗余数据进行删除
考虑一个公司文档存储库的示例,其中包含与客户相关的多个策略文档。相同的信息可能以以下方式显示:
文档 1:“员工必须确保所有客户数据都得到安全存储。未经同意,不得共享客户数据。
文档 2:“所有客户数据都必须加密。分享前需要征得同意。
文档 3:“确保客户数据得到安全存储。未经正确利益相关者同意,请勿共享客户数据。
已删除重复数据的文本将为:
合并文本:“客户数据必须安全地加密和存储,未经明确同意,禁止共享客户数据。