知识库开发记录
在知识库开发的过程中,会发现文档的召回率低,回到效果不好。可以做一下调整:
- topK调整到最大。这样关键词命中就会返回多个文档。内容越多回答的越精确
- 分隔符替换成文档中不会出现的,例如一串形如 “akslhflkwehyfhwenl;fmo1442” 的乱码。这样文档在分割是不会在多个段,只会在一个段。这样大模型就处理一个完整的文档,相对来说信息就是更完整
- 不要使用一个文档把所有内容都塞进去。要拆分成一个个独立的文档
- 选择合适的向量化模型
- 做好提示词约束,可以很大程度的减少幻觉的发生