作者:微信小助手
发布时间:2025-02-08T16:06:13
同时大家也提了一些问题,汇总一下大家的问题: 在后面方案里详细地给大家说明。 我简单地梳理了下流程。理想的情况下: 共同点: 高精度要求建议自己写程序处理,更准确一些,能解决索引质量和信息丢失的问题 因为每个企业的知识结构和习惯不一样,大家处理数据的方式也会有差别,这个需要好好的调试。 这里注意的是需要记录下每篇知识向量化后的id,以及对应的版本或时间戳,方便后续删除向量数据。 deepseek给的方案是 低精度要求会有一定的丢失概率,直接使用dify或maxKB即可。 具备研发能力的同学,可以看这块。 提示: 实际性能受数据维度、硬件配置(如SSD/NVMe)、索引参数影响强烈,建议通过真实数据基准测试验证。 要求如下: MaxKB和dify 都可以召回,我们可以通过高级功能,做一个流程来解决问题3。先获取topn的向量,大模型排序,根据规则进行过滤。 deepseek给的解决方案:不知道dify和maxKB如何配置。 创建应用的时候,可以关联多个知识库,高级应用可以做流程编排。 MaxKB 的智能分段, 创建应用的时候也可以关联多个知识库。可以设置多路召回。 dify中知识库分段和清洗可以自定义设置
方案说明
知识库
关于dify 和MaxKB的知识库
向量化
分段优化三原则:
▸ 语义完整性校验(BERTScore>0.85)
▸ 动态重叠窗口(建议15%-20%文本长度)
▸ 关键实体锚点锁定(使用spaCy实体识别)
向量库(具备研发能力)
选型建议
应用客户端
① BM25粗筛(Top100)→ ② 向量精排(Top10)→ ③ 元数据过滤
MaxKB
dify
FastGpt
总结