企业搭建大模型 RAG 知识库?该选哪个 Embedding 嵌入模型

作者:微信小助手

发布时间:2025-03-17T14:33:41

需求:企业在搭建 RAG 知识库的时候,选择合适的 Embedding 嵌入模型很重要,Embedding 的性能决定了检索的准确性,也间接决定了大模型输出的可信度。常用模型:bge、m3e、nomic-embed-text、BCEmbedding(网易有道)。

为什么需要嵌入模型

计算机本质上只能处理数字运算,无法直接理解自然语言、文字、图片、音频等非数值形式的数据。因此,我们需要通过“向量化”操作,将这些数据转化为计算机可以理解和处理的数值形式,即映射为数学上的向量表示。这一过程通常借助嵌入模型(Embedding Model)来实现,它可以有效地捕捉数据中的语义信息和内在结构。

嵌入模型的作用在于,它不仅能够将离散的数据(如单词、图像片段或音频片段)转换为连续的低维向量,还能在向量空间中保留数据之间的语义关系。例如,在自然语言处理中,嵌入模型可以生成词向量,使得语义相似的单词在向量空间中距离更近。这种高效的表示方式使计算机能够基于这些向量进行复杂的计算与分析,从而更好地理解与处理文本、图像或声音等复杂数据。

通过嵌入模型的向量化操作,计算机不仅可以高效地处理大规模数据,还能在各种任务中(如分类、检索、生成等)展现出更强的性能和泛化能力。

嵌入模型评测

要判断一个嵌入模型的好坏,必须有一套明确的标准。通常使用 MTEB 和 C-MTEB 进行基准测试。

MTEB

Huggingface有一个MTEB(Massive Multilingual Text Embedding Benchmark)评测标准是一个业界比较公认的标准,可以作为参考。涵盖了8个嵌入任务,共58个数据集和112种语言,是目前迄今为止最全面的文本嵌入基准。



排行榜:https://huggingface.co/spaces/mteb/leaderboard
GitHub 地址:https://github.com/embeddings-benchmark/mteb



C-MTEB

C-MTEB是当前最全面的中文语义向量评测基准,涵盖6大类评测任务(检索、排序、句子相似度、推理、分类、聚类)和 35 个数据集。

C-MTEB论文:https://arxiv.org/abs/2309.07597
代码和排行榜:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/C_MTEB,(网上很多地址是旧的)