摘要:这不是科幻,而是HuggingFace最新开源的语义去重神器SemHash的真实表现。
8300万条数据,83秒完成去重!
这不是科幻,而是HuggingFace最新开源的语义去重神器SemHash的真实表现。
当我们谈论大语言模型训练时,数据质量往往被忽视。
重复的数据就像是给模型喂了一堆复印件,不仅浪费训练资源,还可能导致模型产生偏见。
但现在,这个问题有了解决方案!
HuggingFace的技术主管Philipp Schmid发布了一个「神器级」的开源库:SemHash。
它不仅能找出完全重复的数据,还能识别那些意思相近但表达不同的文本。
最让人兴奋的是它的速度:仅用83秒就完成了180万条WikiText数据的去重!
这是什么概念?
——相当于每秒处理2.2万条数据!
秘密在于它的「双核引擎」:
Model2Vec:负责生成文本嵌入向量Vicinity:通过ANN(近似最近邻)技术进行相似度搜索这种组合让SemHash不仅能跑得快,还跑得准。在17个数据集的基准测试中,它展现出了惊人的表现。
医学研究者Piotr Jarecki表示:「这对医学文献的训练数据去重非常有用!」
SemHash的使用方法出人意料的简单。三行代码就能完成基本的去重操作:
from semhash import SemHashsemhash = SemHash.from_records(records=texts)deduplicated_texts = semhash.self_deduplicatestudent数据集:117519条数据中有45.66%是重复的wikitext数据集:180万条数据中有50.89%是重复的imdb数据集:25000条数据中仅0.68%重复SemHash甚至发现了一些数据集中存在严重的训练集和测试集重叠问题。比如在enron_spam数据集中,测试集有47%的数据与训练集重复!
Ethan_SynthMind评论道:
去重速度快得能赶上猎豹!
在机器学习中,数据质量比我们想象的更重要。
而现在,这个强大的工具已经在GitHub开源:https://github.com/MinishLab/semhash
有了SemHash,相信更多的AI模型能吃上「干净的数据」了!
本文,完。觉得本篇文章不错的,记得随手点个赞、收藏和转发三连,感谢感谢~如果想第一时间收到推送,请记得关注我们⭐~
来源:AIGC研究社