去重神器SemHash:每秒2.2万条,快如闪电!已开源

B站影视 2025-01-20 10:33 3

摘要:这不是科幻,而是HuggingFace最新开源的语义去重神器SemHash的真实表现。

8300万条数据,83秒完成去重!

这不是科幻,而是HuggingFace最新开源的语义去重神器SemHash的真实表现。

当我们谈论大语言模型训练时,数据质量往往被忽视。

重复的数据就像是给模型喂了一堆复印件,不仅浪费训练资源,还可能导致模型产生偏见。

但现在,这个问题有了解决方案!

HuggingFace的技术主管Philipp Schmid发布了一个「神器级」的开源库:SemHash

它不仅能找出完全重复的数据,还能识别那些意思相近但表达不同的文本

最让人兴奋的是它的速度:仅用83秒就完成了180万条WikiText数据的去重

这是什么概念?

——相当于每秒处理2.2万条数据!

秘密在于它的「双核引擎」:

Model2Vec:负责生成文本嵌入向量Vicinity:通过ANN(近似最近邻)技术进行相似度搜索

这种组合让SemHash不仅能跑得快,还跑得准。在17个数据集的基准测试中,它展现出了惊人的表现。

医学研究者Piotr Jarecki表示:「这对医学文献的训练数据去重非常有用!」

SemHash的使用方法出人意料的简单。三行代码就能完成基本的去重操作:

from semhash import SemHashsemhash = SemHash.from_records(records=texts)deduplicated_texts = semhash.self_deduplicatestudent数据集:117519条数据中有45.66%是重复的wikitext数据集:180万条数据中有50.89%是重复的imdb数据集:25000条数据中仅0.68%重复

SemHash甚至发现了一些数据集中存在严重的训练集和测试集重叠问题。比如在enron_spam数据集中,测试集有47%的数据与训练集重复!

Ethan_SynthMind评论道:

去重速度快得能赶上猎豹!

在机器学习中,数据质量比我们想象的更重要

而现在,这个强大的工具已经在GitHub开源:https://github.com/MinishLab/semhash

有了SemHash,相信更多的AI模型能吃上「干净的数据」了!

本文,完。觉得本篇文章不错的,记得随手点个赞、收藏和转发三连,感谢感谢~如果想第一时间收到推送,请记得关注我们⭐~

来源:AIGC研究社

相关推荐