摘要:继国家数据局等17部门联合印发《“数据要素x”三年行动计划(2024-2026年)》之后,中央面向公共数据开发利用的首个顶层设计文件《关于加快公共数据资源开发利用的意见》公布,构建公共数据资源开发利用“1+3”政策规则体系。南都大数据研究院策划推出“乘数而上”
乘数而上之AI语料新生态·开源筑基
继国家数据局等17部门联合印发《“数据要素x”三年行动计划(2024-2026年)》之后,中央面向公共数据开发利用的首个顶层设计文件《关于加快公共数据资源开发利用的意见》公布,构建公共数据资源开发利用“1+3”政策规则体系。南都大数据研究院策划推出“乘数而上”系列报道,继关注公共数据授权运营以及广东创新实践之后,本期通过三篇深度调研报道,聚焦高质量中文语料数据产品供给等AI语料新生态,以期更好赋能AI 产业创新发展。第三篇我们聚焦人工智能研究机构以及行业企业打造开源社区,共建开源语料新生态。
“开源已经成为推动AI技术进步的重要力量”,上海人工智能实验室·大模型语料数据联盟去年联合发布多模态语料库首个开源版本——书生·万卷1.0,目前下载量超过149万人次,通过开源共建包容、开放、有序、共享的AI语料新生态。在上海市人工智能社会治理协同创新中心、上海交通大学清源研究院研究员刘志毅看来,开源语料的价值不仅在于降低创新门槛,更重要的是通过社区协作提升数据质量。
开源社区帮AI开发者找到模型数据集
2023年8月14日,上海人工智能实验室宣布联合语料数据联盟成员共同开源发布“书生·万卷1.0”多模态预训练语料,包含文本数据集、图文数据集、视频数据集,开源数据总量超过2TB。发布两周内下载量为18万人次,创下国内大模型兴起后公开的单体数据集下载量之最。
南都大数据研究院注意到,书生·万卷1.0官网信息注明其为书生·万卷多模态语料库首个开源版本,具备多元融合、精细处理、价值对齐、易用高效等四大特征,已经被应用于书生·多模态、书生·浦语的训练。其中,文本数据集1.0由来自网页、百科、书籍、专利、教材、考题等不同来源的清洗后预训练语料组成,数据总量超过5亿个文档,经过细粒度的清洗、去重、价值对齐,形成了一份安全可信、高质量的预训练语料。图文数据集1.0数据主要来自公开网页,经处理后形成图文交错文档,总量超2200万个。视频数据集1.0来自中央广播电视总台、上海文广集团,包含多种类型的节目影像,视频文件数超过1000个。
高价值语料数据是训练AI大模型关键因素。但长期以来高价值语料数据存在跨单位、跨行业、跨地区分布特点,部分领域暴露滥用语料数据、泄露语料隐私等问题。近年来,为满足大模型发展对高质量、大规模、安全可信语料数据资源的需求,全国多地采取一系列举措,包括组建大模型语料数据联盟,开源多批高质量语料资源,建设语料平台,打造大模型语料的“超级工厂”。随着人工智能快速发展,用于机器学习与AI大模型训练的语料数据开源平台越来越多。例如Kaggle、UCI、OpenML、ImageNet、OpenSLR等平台开源大量图像、文本与语音数据。
如何为国内大数据及AI行业提供安全、可靠的语料资源?智源研究院联合拓尔思等单位共建的开源中文互联网语料库,是首个针对当前主流评测数据集进行过滤的开源数据集,数据来自高质量可信、中国境内的互联网站,在内容质量、价值观等方面进行针对性检测与过滤。而华东师范大学出版社联合上海智能教育研究院共同发布的“华师·无涯”开源数据集包含学前教育、基础教育、高等教育到职业教育全年龄、全学科内容等等。在华东师范大学计算机科学与技术学院青年研究员周杰看来,该数据集具备大规模、高质量、多样性及测评四大特点,从数据源、数据规范、数据处理、数据标准制定等方面控制数据质量,从教学知识、学生发展、内容知识三大模块,记忆、理解、运用、分析、评价、创造六个层级全面评估大模型在智能教育领域的应用性能。
企业或者开源平台提供高质量与多样化数据集支持大模型训练优化,也为大模型开发中数据收集、清洗、标注和管理提供坚实基础,为AI算法提供必需语料资源。上海人工智能实验室发布的人工智能开源开放体系核心项目之一浦数平台OpenDataLab,汇聚7700多个大模型相关优质、开源数据集,覆盖计算机视觉、自然语言处理、多模态、通用机器学习、音频识别等领域的800多种任务类型。2024年6月20日,魔搭社区与浦数平台达成深度合作,开发者可直接调用平台上开源数据集,加速AI大模型研发。
开源语料生态面临有效质量控制等挑战
但刘志毅提到,开源生态的健康发展仍面临几个关键挑战:如何建立有效的质量控制机制、如何设计可持续的激励模式、如何处理多语言数据的协同等,这些需要在社区治理、商业模式、国际合作等方面进行深入探索,特别是在中文语料领域,开源社区的建设对提升本土AI技术竞争力产生深远影响。
在大模型开源语料生态建设中,建立有效的质量控制机制是确保语料库质量、提升模型性能和应用效果的关键,涉及数据采集与收集、数据清洗与预处理、数据标注与标签、数据存储和管理、数据安全和合规性、定期审查与更新等。具体而言,要明确数据从哪里获取,定义数据采集频率、数据范围等,要对数据进行规范化、归一化和转换以适应模型需求,确保标注准确性,数据采集、存储过程符合数据保护法规和隐私政策。此外,要为数据科学家、工程师和其他利益相关者提供易于理解的数据文档,定期审查确保数据保持高质量,更好提升模型性能应用效果。
而设计可持续激励模式对于维持开源社区活跃度、贡献者积极性至关重要。专家建议采取开源许可证和贡献者协议、开源社区参与贡献奖励、开放教育培训资源等举措,鼓励更多开发者参与并贡献代码、数据和算法,常态化推出开源贡献者排行榜单、颁发贡献证书等为贡献者提供技术、资金以及名誉奖励,同时建立开放算力平台和数据共享机制降低开发成本,吸引更多参与者。至于多语言数据协同,可以通过收集、处理大规模多语言数据,确保模型能理解生成多种语言,打造多语言数据联盟,跨界联合共建宽领域语料库,打破数据壁垒,提升数据质量与多样性,推动大模型开源语料生态健康发展。
此前,阿里研究院高级行业研究专家王峥在大模型中文语料库的发展现状与高质量发展路径研讨会上提到,模型语料需要政府和社会力量更好协同。政府侧进一步加强应用于训练的公共数据开放,特别是具有科研属性的公共数据,鼓励社会力量参训练公共数据集开发建设,通过多方参与机制提高训练数据质量和安全性。对于受财政支持的科研和文化单位所有的知识产权类数据,鼓励通过开放共享等向社会公开,基于非营利性成本补偿原则明确合理收费标准。低质量语料可以用数据治理标准来去劣,而高质量语料应交给市场机制探索,不要预设前置标准。
为应对大模型发展对高质量、大规模、安全可信语料数据资源需求,大模型语料数据联盟发起数据征集计划,即寻“数”计划,依托开放数据平台招募各类数据合作伙伴,致力于构建AI开放数据生态,推动数据要素对大模型领域全面赋能,截至10月29日平台汇聚7600多个数据集。
构建高价值语料数据互通可持续生态
建立模型训练、语料供给、学术研究、第三方服务等多方机构合作机制,共同打造资源共享、互利共赢、国际融通的“大模型语料生态圈”,实现语料“数”“质”齐飞,是众多语料生态伙伴共同的愿景。
谈及如何强化AI语料生态建设,深译信息科技(珠海)有限公司创始人林余楚建议加强法律法规建设,制定和完善数据生产、确权、使用、保护等方面法律法规,建立数据共享平台,鼓励数据合理共享,促进AI技术发展。要鼓励语言学、计算机科学、法律等不同学科之间合作,加强对AI数据专业人才培养,提高行业专业水平。支持开源项目和标准化工作,以促进AI语料数据的广泛使用、国际交流,构建国际数字贸易枢纽港,为数据跨境提供基础条件。
在2024北京人工智能生态大会上,国家区块链技术创新中心等10余家语料数据重点单位共同启动高价值语料可信流通基础设施建设,开展语料数据可信安全流通规范制定,保障语料数据可信安全流通、使用和管理。
“在区块链、隐私计算等前沿信息技术护航下,支撑人工智能大模型高质量成长的语料数据将告别无序流通,转入规范运行的高速公路”,国家区块链技术创新中心相关负责人表示,高价值语料可信流通基础设施将运用我国自主可控、性能领先的区块链软硬件技术,搭建起覆盖全国分布式语料数据互联互通桥梁,链接语料供给方、加工方、需求方,实现全国分布式语料数据可信接入,跨地域可发现、可访问,形成高质量语料数据集。运用创新隐私计算技术,保障大模型高价值语料数据在处理加工和模型训练过程中无法二次非授权传播。
南都大数据研究院留意到,深圳数据交易所2022年联合50家国家智库、高校、大型企业共同发起成立首个致力于构建数据可信流通体系的开源社区,也是全国数据要素领域最大的技术生态型社团组织,加快推动高质量开源社区与开源语料数据平台建设,围绕技术开源协同、行业标准制定、数据要素场景落地等目标,开展隐私计算、大数据、 区块链、人工智能等前沿技术探索与落地。
作为数据要素市场的核心枢纽,数据交易所应当如何为AI大模型语料数据的流通交易与使用提供保障,促进高价值语料数据高效互通,构建可持续生态?深圳数据交易所总经理古亮告诉南都记者,可持续的语料数据流通生态有赖于语料合规保障、流通平台支撑、数据资源生态汇集、梯队人才培养、语料数据资产转化等全链条服务能力。人工智能技术应用已从单一场景向多场景应用转化,市场亟需高质量细分行业领域数据实现精细化场景应用,语料数据资产转化在帮助企业实现数据从资源向产品到资产转化同时,也将进一步促进企业扩展经营增长路径,推动数据“供得出”。为保障数据安全合规应用,预防企业隐私泄露,建立健全语料数据合规保障机制、实现技术赋能数据合规流转是语料数据流通的核心关键,并围绕人工智能技术和趋势、特定技术难题、人工智能战略和方案等企业核心痛点,通过构建梯队人才培养体系,丰富开发者培养计划,持续吸引并培育高校、科研、社会从业等多维度人才,全方位赋能高价值语料数据流通可持续生态打造。
出品:南都大数据研究院
采写:南都记者 袁炯贤 实习生 纪依 设计:林泳希
来源:南方都市报一点号