摘要:9月17日,在昆明召开的2025年国家网络安全宣传周人工智能安全治理分论坛上,中文互联网基础语料3.0正式向社会发布。作为该语料的贡献单位之一,开普云受邀参加发布仪式。
9月17日,在昆明召开的2025年国家网络安全宣传周人工智能安全治理分论坛上,中文互联网基础语料3.0正式向社会发布。作为该语料的贡献单位之一,开普云受邀参加发布仪式。
在中央网信办相关部门指导下,中国网络空间安全协会会同国家互联网应急中心等单位,在前期发布中文互联网基础语料1.0和2.0的基础上,依托网安协会人工智能安全治理专委会建立的语料共建共享机制,汇聚开普云等公司提供的一批新的高质量可信数据,经过信源筛选、内容过滤、数据去重等一系列严格细致的数据加工处理措施,形成并对社会发布中文互联网基础语料3.0。
该语料库旨在构建高质量中文训练数据集,提升大模型在中文语境下的准确性、权威性与性能表现,为我国AI产业生态发展提供坚实数据支撑。
开普云积极响应网安协会语料专委会的倡议,深度参与语料库共建工作。早在2023年,公司便从自有的PB级优质语料中,精选出超过500GB的高质量政务数据,作为首批开放资源,贡献给语料库建设,为大模型训练提供了持续、安全、可信的数据资源,有效提升垂直领域模型性能,也为我国大模型服务商提供了高质量的中文预训练数据集。
在参与语料库建设过程中,开普云秉持严谨、科学的态度,坚守四大核心原则:
一是力求客观准确,认为可信、专业的输出,必须建立在高质量可信的语料数据基础之上;
二是按领域、分阶段推进,聚焦需求最大、问题最紧迫的领域,如意识形态引导、媒体内容传播等领域;
三是健全工作机制,充分发挥体制优势,做好顶层设计,由国家统筹规划、统一组织,避免低水平重复建设,同时调动专家积极性,畅通社会参与渠道;
四是坚持“边建边用、在用中建”的原则,建设初期,可向符合条件的企业和机构开放特定的、权威的语料,如正规多模态出版物构成的语料等。
语料库的建设是一项系统性、长期性的工程,需社会各界持续投入与协同推进。未来,开普云将继续协同各方力量,深化语料库建设与创新应用,夯实中文大模型发展的数据基石,为我国AI产业迈向更高水平提供持续、稳健的数据支撑。
来源:新浪财经