开普云参与由中国网络空间安全协会及国家互联网应急中心联合发起的“中文互联网基础语料3.0”发布仪式

B站影视 韩国电影 2025-09-19 20:15 2

摘要:9月17日,在昆明召开的2025年国家网络安全宣传周人工智能安全治理分论坛上,中文互联网基础语料3.0正式向社会发布。作为该语料的贡献单位之一,开普云受邀参加发布仪式。

9月17日,在昆明召开的2025年国家网络安全宣传周人工智能安全治理分论坛上,中文互联网基础语料3.0正式向社会发布。作为该语料的贡献单位之一,开普云受邀参加发布仪式。

在中央网信办相关部门指导下,中国网络空间安全协会会同国家互联网应急中心等单位,在前期发布中文互联网基础语料1.0和2.0的基础上,依托网安协会人工智能安全治理专委会建立的语料共建共享机制,汇聚开普云等公司提供的一批新的高质量可信数据,经过信源筛选、内容过滤、数据去重等一系列严格细致的数据加工处理措施,形成并对社会发布中文互联网基础语料3.0。

该语料库旨在构建高质量中文训练数据集,提升大模型在中文语境下的准确性、权威性与性能表现,为我国AI产业生态发展提供坚实数据支撑。

开普云积极响应网安协会语料专委会的倡议,深度参与语料库共建工作。早在2023年,公司便从自有的PB级优质语料中,精选出超过500GB的高质量政务数据,作为首批开放资源,贡献给语料库建设,为大模型训练提供了持续、安全、可信的数据资源,有效提升垂直领域模型性能,也为我国大模型服务商提供了高质量的中文预训练数据集。

在参与语料库建设过程中,开普云秉持严谨、科学的态度,坚守四大核心原则:

一是力求客观准确,认为可信、专业的输出,必须建立在高质量可信的语料数据基础之上;

二是按领域、分阶段推进,聚焦需求最大、问题最紧迫的领域,如意识形态引导、媒体内容传播等领域;

三是健全工作机制,充分发挥体制优势,做好顶层设计,由国家统筹规划、统一组织,避免低水平重复建设,同时调动专家积极性,畅通社会参与渠道;

四是坚持“边建边用、在用中建”的原则,建设初期,可向符合条件的企业和机构开放特定的、权威的语料,如正规多模态出版物构成的语料等。

语料库的建设是一项系统性、长期性的工程,需社会各界持续投入与协同推进。未来,开普云将继续协同各方力量,深化语料库建设与创新应用,夯实中文大模型发展的数据基石,为我国AI产业迈向更高水平提供持续、稳健的数据支撑。

来源:新浪财经

相关推荐