KaLM-Embedding:高质量训练数据带来更强大的嵌入模型

B站影视 2025-02-10 06:00 3

摘要:该文介绍了一种新的多语言嵌入模型——KaLM-Embedding,该模型利用了大量更清洁、更多样化和特定领域的训练数据,并采用了三种关键技术:基于角色的人工合成数据、排名一致性过滤和半同质任务批处理采样,以提高训练效率。该模型采用Qwen2-0.5B作为预训练

该文介绍了一种新的多语言嵌入模型——KaLM-Embedding,该模型利用了大量更清洁、更多样化和特定领域的训练数据,并采用了三种关键技术:基于角色的人工合成数据、排名一致性过滤和半同质任务批处理采样,以提高训练效率。该模型采用Qwen2-0.5B作为预训练模型,可以方便地适应自回归语言模型的一般嵌入任务。在多个语言上的MTEB基准测试中,该模型表现优于同类大小的其他模型,为少于1亿参数的多语言嵌入模型设立了新标准。

该论文提出了一种基于预训练语言模型的嵌入式学习方法,通过弱监督对比学习和有监督微调两个阶段来开发嵌入向量。在数据收集阶段,利用大规模的标题正文对和大型的问答数据集进行预训练,并使用多种来源的数据进行有监督微调。此外,还引入了合成数据和排名一致性过滤等技术来提高模型性能。

与传统的嵌入式学习方法相比,该方法采用了更丰富的数据源来进行有监督微调,包括分类、聚类等多种类型的数据集,并且采用了随机采样的个性化角色作为系统提示来增加数据的多样性。同时,该方法还采用了排名一致性过滤来避免虚假负样本的影响,提高了模型的优化效果。

该方法解决了传统嵌入式学习方法中仅依赖于少量高质量数据集的问题,通过引入更多的数据源和个性化的角色,提高了模型的泛化能力和准确性。同时,该方法还采用了排名一致性过滤等技术来减少虚假负样本的影响,进一步提高了模型的性能。

本文主要介绍了基于预训练的多语言文本嵌入模型KaLM-embedding-mini-instruct在大规模文本嵌入基准测试(MTEB)上的表现,并进行了多个对比实验以探究不同参数设置对模型性能的影响。

首先,在MTEB测试中,作者使用了多种任务类型和广泛的数据集来评估KaLM-embedding-mini-instruct的表现。结果表明,该模型在多种语言上都表现出显著优于其他模型的整体性能,但在波兰语上相对较弱,可能是因为训练数据中波兰语的比例较低。

接着,作者进行了多项对比实验,包括:

训练策略和数据过滤的比较:作者通过调整训练策略和数据过滤的方法,比较了不同的参数设置对模型性能的影响。结果表明,低维嵌入向量的学习权重较小,但仍然可以显著提高低维嵌入向量的性能。此外,半同质任务批次比例的变化会影响整体性能,增加比例会降低分类、聚类和配对分类任务的性能,而增强检索和重排任务的性能。最后,训练步数和批量大小的选择也会影响模型性能,更大的训练步数可以提高整体性能,但较大的批量大小可能会导致更多的假负样本,从而影响模型稳定性。不同维度嵌入向量的比较:作者比较了不同维度的嵌入向量的性能,发现随着维度的减小,性能也会下降,但是使用Matryoshka Representation Learning仍然可以显著提高低维嵌入向量的性能。

综上所述,本文通过对KaLM-embedding-mini-instruct模型的优化和对比实验,得出了关于多语言文本嵌入的一些重要结论,为相关领域的研究提供了有价值的参考。

该研究提出了一种新的多语言文本嵌入模型KaLM-Embedding,并通过优化训练数据的质量和将大型语言模型的知识注入到嵌入模型中来提高其性能。研究人员收集了超过20个类别的数据用于预训练和70个类别的数据用于微调,并使用了一些关键的技术(如Persona-based Synthetic Data、Ranking Consistency Filtering和semi-homogeneous task batching)来进一步增强数据质量和多样性。该研究在多个任务上展示了该模型的优越性能,特别是在跨语言相似度任务上达到了最先进的结果。

来源:宁教授网络空间元宇宙

相关推荐