联通申请预训练数据的去重方法专利,提高预训练数据去重效率

B站影视 2025-01-08 14:11 3

摘要:国家知识产权局信息显示,中国联合网络通信集团有限公司申请一项名为“预训练数据的去重方法、电子设备、存储介质及程序产品”的专利,公开号 CN 119250054 A,申请日期为 2024年9月。

金融界2025年1月8日消息,国家知识产权局信息显示,中国联合网络通信集团有限公司申请一项名为“预训练数据的去重方法、电子设备、存储介质及程序产品”的专利,公开号 CN 119250054 A,申请日期为 2024年9月。

专利摘要显示,本申请提供的一种预训练数据的去重方法、电子设备、存储介质及程序产品,该方法包括:根据预训练数据集,获取多个待处理的预训练数据;根据预训练数据的总量,确定对应的并行处理进程数,并根据并行处理进程数和预训练数据的总量,将预训练数据划分为多个数据批次;根据并行处理策略,为每个处理进程分配对应的数据批次,并控制每个处理进程,对每个数据批次的预训练数据进行双重去重处理,获取处理后的目标数据;在确定每个处理进程均完成双重去重处理后,将每个数据批次内对应的目标数据进行汇总,获取去重后的目标数据集。该方法用以达到提高预训练数据去重效率的技术效果。

天眼查资料显示,中国联合网络通信集团有限公司,成立于1994年,位于北京市,是一家以从事电信、广播电视和卫星传输服务为主的企业。企业注册资本10481551.957532万人民币,实缴资本10481551.957532万人民币。通过天眼查大数据分析,中国联合网络通信集团有限公司共对外投资了33家企业,参与招投标项目3071次,知识产权方面有商标信息3646条,专利信息5000条,此外企业还拥有行政许可11个。

来源:金融界

相关推荐