Skip to content

知识库开发记录

在知识库开发的过程中,会发现文档的召回率低,回答效果不好。可以做以下调整:

  1. topK调整到最大。这样关键词命中就会返回多个文档。内容越多回答的越精确
  2. 分隔符替换成文档中不会出现的,例如一串形如 “akslhflkwehyfhwenl;fmo1442” 的随机字符串。这样文档在分割时不会在多个段,只会在一个段。这样大模型处理就是一个完整的文档,相对来说信息就是更完整
  3. 不要使用一个文档把所有内容都塞进去。要拆分成一个个独立的文档。
  4. 选择合适的向量化模型
  5. 做好提示词约束,可以很大程度的减少幻觉的发生