摘要:是新质生产力的典型代表,大模型是全球科技竞争的核心领域,也是引领新一轮产业革命的重要推动力。当前,国内大模型公开语料数据资源匮乏,高质量私域语料数据供给不畅,未形成大模型语料数据优质生态。针对这类问题,我国应率先完善语料数据生态,抢先研发下一代基础大模型,促进
关注
,从此你的世界多点科学~
智库观察
OBSERVER
人工智能(AI)
是新质生产力的典型代表,大模型是全球科技竞争的核心领域,也是引领新一轮产业革命的重要推动力。当前,国内大模型公开语料数据资源匮乏,高质量私域语料数据供给不畅,未形成大模型语料数据优质生态。针对这类问题,我国应率先完善语料数据生态,抢先研发下一代基础大模型,促进人工智能与经济社会发展的深度融合,引领和推动我国新一代人工智能的健康发展。国内大模型语料数据供给面临三大困境
根据中国国家数据局数据统计,截至2024年3月底,我国10亿参数规模以上的大模型已超100个,全球累计发布大模型超过200个。下一阶段,大模型的竞争将进一步聚焦在性能表现和应用落地的能力上,能否有足够充分和高效的大规模、高质量的语料数据供给是抢占大模型产业爆发先机的关键。
美国早在2016年出台的《国家人工智能研发战略计划》(该计划分别于2019年和2023年两次更新)中,就明确提出将“开发适用于人工智能训练和测试的共享公共数据集和环境”作为七大战略计划之一,而我国的语料数据发展起步较晚,数据资源整合能力、数据资源价值挖掘能力、数据治理能力的基础薄弱,数据交易市场培育较为滞后,导致当前我国大模型语料数据供给还存在三大困境。
困境之一:
大模型公开语料数据资源匮乏
由于大模型的扩展速度比数据集快3倍,全球大模型普遍存在数据荒的问题。
纪元(Epoch)AI 研究团队(由麻省理工学院团队和阿伯丁等大学学者组成)的研究结果表明,高质量的语言数据存量将在2026年耗尽,低质量的语言数据和图像数据的存量则分别在2030年至2050年、2030年至2060年枯竭。其中,中文语料成全球数据荒重灾区。
中国工程院院士高文指出,全球通用的50亿大模型数据训练集里,中文语料占比仅为1.3%。一些主流数据集如Common Crawl、Books Corpus、WiKipedia、ROOT等都以英文为主。最受好评的Common Crawl数据集中,中文数据也只占其4.8%。
虽然国内已有机构发布开源数据集,例如百度DuReader数据集、阿里天池数据集等,但总体来看数据质量相对较低,存在噪声、偏差或过时等问题,需要自行抓取并进行预训练才可使用,且行业专业度不深。当然,随着DeepSeek带来的“鲶鱼效应”,文心一言、ChatGPT等纷纷效仿其采取开源生态,免费开放给所有用户使用,这在一定程度上促进了全球的大模型语料获取。
困境之二:
高质量私域语料数据供给不畅
私域数据的领域性和专业针对性较强,可靠性与实用性较高,适合与行业大模型深度结合。
近年来,我国高度重视数据开放,推进数据交易,国家组建数据管理局,地方上也纷纷设立数据交易中心,但总体上,企业和科研机构“寻找数据”的积极性较高,“共享和开放数据”的能动性较弱。
一方面,专业领域知识积累的专业门槛高、时间周期长,企业出于商业利益和知识产权考虑,对领域知识共享意愿度低;另一方面,由于存在隐私、安全等合规性问题,部分行业缺少优质的数据供给。
困境之三:
大模型发展与数据处理技术不平衡
高质量的大模型语料数据建设既有机制问题,又有技术问题。从技术层面看,大模型的有效运行需要从数据采集、清洗、处理、存储和销毁全生命周期进行数据技术的支撑,从顶层设计、标注规范、标注质量把控以及发布后更新升级等各个方面严格把关。
目前国内训练行业大模型所需要使用的工业、医疗、金融、交通等领域的垂直数据还较为缺乏。这主要是因为这些行业数据多聚焦于某些单一场景,需要经过聚合整理后方能作为训练大数据的数据集。
此外,高效的安全技术保障也不足,虽然已有一些动态加密、联邦机器学习等方式可以帮助脱敏,或者做到“原始数据不出域,数据可用不可见”,但总体效率不高,无法大批量地保障大模型训练语料的安全。
国际上大模型语料数据开放供给的经验
各国对大模型语料数据开放供给都在持续探索的过程中。从实践效果看,美国“政府-社会协同”的数据资源生态对大模型产业发展助力较大;欧盟通过完善法律试图扩大人工智能领域的“布鲁塞尔效应”,有效推动大模型赋能科研;而英国和日本受制于法律困境,进展较为有限。
美国:
加快形成“政府-社会协同”的
数据资源生态
为了进一步巩固AI领域的竞争优势,美国联邦政府在公共数据中承担了“应开尽开”的职责,并以开放的公共数据服务于训练语料,社会力量通过融合公共数据和网络公开数据提升语料广度、精细度和专业性。
政府开发了专门针对AI训练数据的开放平台(www.data.gov.cn),除了隐去涉及国家秘密和个人隐私的信息,联邦和地方法院都实现了数据公开,并针对公共数据和科研数据进行质量维护和运营管理,在保证数据可用性的同时降低公众使用门槛。
为使AI促进科研,美国还出台了为期6年的国家人工智能研究资源(NAIRR)计划,通过建立数据资源服务平台,汇聚社会力量建立统一的数据汇聚标准,规范数据描述格式,促进多方数据融合,并通过打造运营数据集社区等,推动多方协作的数据资源开发利用。
同时,为促进公众参与,美国政府数据开放平台列出政府亟待解决的数据问题,并设立奖金,调动全社会的力量共同解决。
欧盟:
强化数据战略并寻求监管平衡
2020年,欧盟发布了《数据战略》,并确定了九大战略性行业和领域的数据空间,后为加强数据赋能科学研究,增添欧洲开放科学(EOSC)作为科研领域的数据空间。同时设立欧盟数据开放平台,通过其元数据质量仪表板评估欧盟各国国家数据开放的可访问性和可用性。
在2024年出台的《人工智能法案》中,更加注重人工智能创新发展与监管平衡,以规范来促进高质量语料数据建设。法案通过确立数据多样性和可追溯性的要求,并设立语料来源黑名单,确保语料的广泛性和可验证性。
在语料版权上,欧盟国家虽强调了AI版权的透明性,但是对科研使用优先豁免,例如,德国最新版《著作权及邻接权法》规定了科研使用的豁免(出于非商业目的、将所有利润再投资于科学研究或根据国家授权为实现公共利益的研究机构允许为科学研究目的进行文本和数据挖掘而制作复制品)。
英国和日本:
尚未突破法律困境
英国于2012年成立了开放数据研究所(ODI),以促进商业界、学术界、政府和社会在开放数据方面的合作,构建开放、可信任的数据生态。同时,英国官员们也正在考虑有关版权和人工智能的新法律。
为了尽快吸引人工智能企业和技术进入英国,政府曾提出一项新的版权法豁免建议,但在艺术家的强烈反对下,不得不放弃该计划。这凸显了英国政府在迎合人工智能方面所面临的挑战。
相似地,2023年5月,日本内阁府发布了《关于人工智能和版权的关系》文件,并在人工智能战略会议小组上讨论使用。但日本关于AI训练数据集版权豁免问题的相关讨论局限于人工智能战略会议小组及众议院内部,尚未出台正式法律文件。
结 语
我国人工智能已经进入快速发展的阶段,而兼具开放性、高效性和易用性的DeepSeek的出现,不仅展现了中国团队在技术优化和资源利用上的突破,同时也极大推动了人工智能应用领域的创新。在算力和数据供给方面,浙江大数据计算中心为其提供强大的算力支持,每日互动为其提供海量且丰富的用户行为语料数据,一些厂商也在主动谋求与幻方量化(DeepSeek的母公司)的合作,为其提供金融等专业领域的数据支持,推动了AI在各行各业的高度渗透。
未来,我国的大模型语料数据可以重点在以下几个方面进行优化。
首先,集中战略资源,协同建设“大模型语料”大基础设施。依托具有强公信力的研发机构,设立资源共享-技术研发平台,链接各个主体,汇聚各类公开和私域数据,实现资源的内部整合。同时,加大数据关键技术的研发攻关,通过AI大模型技术与大数据架构的深度融合,利用多源多态数据融合治理、多云多存储数据操作抽象、跨中心协同大数据融合计算、多模态数据智能分析等技术,充分挖掘全国领域内数据要素价值,及时支撑下一代基础大模型的研发攻关。
其次,提高数据供给质量,丰富垂直类数据供给。探索建立大模型训练数据需求清单和供给目录,建立数据供需高质量对接机制。探索建设可用于大模型训练的公共数据专栏和社会数据专区,以场景需求为牵引梳理数据,推动公共数据和社会数据定向有条件开放。加强社会数据应用引导,鼓励链主企业、行业组织发挥效能,打造有吸引力的行业专用数据库。运用先进技术打破数据安全保护与数据交易流通矛盾,搭建“数据可用不可见”的数据可信流通技术平台。
第三,优化数据治理,促进创新与安全的均衡发展。挪威、法国、新加坡等国家在人工智能领域均采取了“监管沙盒”等平衡监管与创新的治理工具。我国在大模型语料数据监管上建议“宜疏不宜堵”,探索对基于纯粹科学研究目的、来自主流媒体和专业领域知识机构等多种数据资源汇聚使用的版权进行豁免,以加速推进原创研究的进程。健全数据流通共享交易制度,探索建立正面引导清单、负面禁止清单和第三方机构认证评级相结合的数据市场准入管理制度,完善数据交易共享的技术保障、检测认证、风险评估、信息披露和监督审计等相关制度规范。
-本文作者张苑是上海市科学学研究所高级经济师,主要研究方向为科技金融、企业创新、人工智能;瞿晶晶是上海人工智能实验室副研究员,主要研究方向为人机交互、人工智能治理;姚景怡是上海市科学学研究所助理研究员,主要研究方向为科技政策、科技管理-
来源:世界科学