少用33%数据,模型性能不变,陈丹琦团队用元数据来做降本增效
我们知道,语言模型通过在大量网络语料库上进行训练来实现卓越的通用能力。多样性训练数据凸显了一个根本性挑战:人们自然地根据数据源来调整他们的理解,与之不同,语言模型将所有内容作为等效样本来处理。
我们知道,语言模型通过在大量网络语料库上进行训练来实现卓越的通用能力。多样性训练数据凸显了一个根本性挑战:人们自然地根据数据源来调整他们的理解,与之不同,语言模型将所有内容作为等效样本来处理。
虽然之前元数据谈过很多,但一作高天宇表示,他们是第一个展示它如何影响下游性能,以及具体如何实践以确保推理中具备普遍实用性。