摘要:人工智能模型训练的语料来源合规性,始终是行业内外关注与探讨的核心议题。笔者已经在《人工智能AI产业合规之困:从多国政策监管到落地实践的关键挑战》中,就人工智能数据处理的合规要点进行了简要概述。对于模型开发者而言,在数据处理全流程中,不仅需严格遵守数据保护相关法
人工智能模型训练的语料来源合规性,始终是行业内外关注与探讨的核心议题。笔者已经在《人工智能AI产业合规之困:从多国政策监管到落地实践的关键挑战》中,就人工智能数据处理的合规要点进行了简要概述。对于模型开发者而言,在数据处理全流程中,不仅需严格遵守数据保护相关法律法规确立的核心原则,对数据收集方式的合法性、收集数据的类别适配性、数据使用目的的正当性展开评估,还需从刑事法律风险、反不正当竞争、知识产权保护等多维度出发综合考虑处理数据的风险。同时,开发者还需主动采取必要的技术防护手段,以此有效降低数据处理过程中可能出现的各类风险,例如侵犯个人形象权益、违反数据相关合同约定、发生数据泄露事件,以及遭遇数据投毒攻击等。
基于此,本文将聚焦人工智能模型在语料数据收集的实际应用场景,针对以下几类数据获取场景与处理行为的合规性评估展开深度解读:其一,直接收集数据时对“最小必要原则”的落地评估;其二,通过自动化访问(即爬虫技术)获取数据的合规性边界评估;其三,间接收集外部数据合规评估;其四,使用合成数据的合规风险评估。
一、 AI模型的数据处理合规评估原则
人工智能大模型语料数据处理的流程大致分为收集原始数据(通过直接收集、间接收集、合成数据的方式)、对原始数据进行数据预处理(包括数据清洗[1]、数据插补[2]等)、对预处理的数据进行数据分析(包括数据提取[3]、数据标注[4]、数据增强[5]等)、将已分析的数据准备为训练数据和验证数据用于模型训练和验证。
根据《网络安全法》《数据安全法》《个人信息保护法》,开发者处理数据需要遵守合法正当、最小必要、公开透明、保障数据质量、权责一致的原则。
1. 合法正当原则:处理个人信息的手段合法正当,需要具备合法性基础,如获取个人信息,应符合《个人信息保护法》第十三条要求,获得个人信息主体同意、为一方订立履行合同所需等,不得通过窃取、非法购买、误导、欺诈、胁迫等方式处理个人信息。
2. 最小必要原则:处理个人信息的目的应明确合理,与处理目的直接相关,采取对个人权益影响最小方式,且处理数据应实现目的最小化范围,不得过度收集与业务目的无关的个人信息种类。
3. 公开透明原则:履行告知义务,向个人信息主体公开个人信息处理规则,明确处理个人信息处理者名称、处理个人信息范围和目的。
4. 保障数据质量:避免因数据不准确、不完整对个人权益造成不利影响,如训练数据质量存在质量问题可能导致模型输出错误,决策偏差甚至引发伦理风险。
5. 权责一致:对数据处理活动承担责任,并采取必要措施,包括组织管理、技术管控等手段保障所处理的数据安全。
对原始数据和预处理数据进行合规评估,开发者需重点关注合法正当、最小必要、保障数据质量原则。
二、AI模型直接收集数据时对“最小必要”原则落地评估
(一) 如何判断处理信息符合最小必要原则
数据是人工智能学习的燃料,足量的数据可以发挥算力和算法的作用,但盲目追求数据量级并不能实现人工智能的安全可靠。2024年6月,欧盟数据保护监督机构发布《生成式人工智能数据保护合规指南》[6],该文件明确指出使用大量数据训练人工智能模型训练,并不一定增强模型输出的有效性,应更注重数据质量而不是数据量级。
人工智能开发者通过协议获得个人明确同意在形式上满足合法正当原则,但是监管在实际执法的要点并不限于形式核查,亦关注更深层次内容。2025年5月,监管部门通报某几款人工智能APP违反最小必要原则处理个人信息,具体包括实际收集的个人信息超出用户授权范围、实际收集的个人信息与业务功能没有直接关联。
网信办在《个人信息保护法》出台前,发布部门规章《常见类型移动互联网应用程序必要个人信息范围规定》,规定39款不同类型APP收集的必要个人信息种类,从规章层面确立了最小必要的判断标准,该规定未直接规定人工智能应用APP收集的必要个人信息范围,且人工智能应用APP也很难归类到某一特定类型服务的APP。
对于最小必要原则的判断,GB/T35273-2020《信息安全技术 个人信息安全规范》列出三项参考标准:a) 收集的个人信息的类型应与实现产品或服务的业务功能有直接关联;直接关联是指没有上述个人信息的参与,产品或服务的功能无法实现;b) 自动采集个人信息的频率应是实现产品或服务的业务功能所必需的最低频率;c) 间接获取个人信息的数量应是实现产品或服务的业务功能所必需的最少数量。
对于人工智能开发者,笔者建议在人工智能设计研发阶段,结合模型预期实现目标,初步分析预估实现目标的数据种类和量级后,采取对个人权益影响最小的方式,开展数据采集活动,并实施技术措施删除采集过程中不相关的字段,留存评估记录。
(二) 利用用户输入信息训练模型的最小必要原则适用探讨
用户输入和反馈像一面镜子清晰反映模型对真实世界的理解能力,可以为模型优化迭代指明方向,对提升模型的准确性、安全性、适应性具有重要意义。但用户输入可能涉及敏感个人信息以及企业商业秘密等,人工智能通过输入内容学习的过程中存在数据泄露风险,如韩国三星某部门在使用ChatGPT后发生三起数据泄露安全事故,两起是因为员工将公司内部数据库有问题代码发给ChatGPT询问解决方法,还有一起是员工将内部会议文档输入ChatGPT要求生成会议纪要。
我国《生成式人工智能服务管理暂行办法》(以下简称《办法》)第十一条重申最小必要原则,规定生成式人工智能服务提供者对使用者的输入信息和使用记录应当依法履行保护义务,不得收集非必要个人信息,不得非法留存能够识别使用者身份的输入信息和使用记录,不得非法向他人提供使用者的输入信息和使用记录。
国家标准《生成式人工智能服务安全基本要求》规定生成式人工智能服务提供者将使用者输入信息当作语料时,应具有使用者授权记录。人工智能企业通常会在隐私政策中写明使用用户输入信息训练模型。笔者对部分人工智能企业隐私政策和产品设置进行调研。隐私政策中描述采取去标识化技术手段和加密手段处理用户输入信息用于训练模型,是企业的通用做法。此外,企业也在隐私政策中公示联系方式,用户可以通过联系方式撤回授权,要求企业停止使用用户输入训练模型。部分企业也在产品界面上设置一键关闭操作,方便用户撤回授权。对于违反社会公德、甚至违法的输入内容,部分企业也表明立场,会及时将不法内容上报相关部门。
需要注意的是,去标识化和加密等技术手段可以显著降低通过信息识别用户的风险,但并不等同于匿名化。企业仍需要结合使用的用户输入字段类型,谨慎判断合规风险。对于字段敏感程度,即使经过去标识化处理,仍不能作为训练数据。如某企业在隐私政策中宣称使用用户去标识化的文档用于训练模型,引发媒体和用户关注,最终停止使用去标识化文档训练模型。
三、AI模型自动化访问(爬虫)获取数据的合规评估
通过自动化访问手段(亦称爬虫)获取数据是人工智能开发者拓宽数据来源的重要途径。自动化访问是根据一定规则通过模拟人类访问浏览器或APP,高效自动抓取互联网数据。
(一)自动化访问获取数据合规评估需要考虑的因素
自动化访问获取数据需要考虑不同法律下涉及保护的法益,主要涉及网络安全和数据保护、刑事、反不正当竞争及知识产权维度。
1. 网络安全和数据保护
《网络安全法》对违法爬虫活动的禁止体现在第二十七条“任何个人和组织不得从事非法侵入他人网络、干扰他人网络正常功能、窃取网络数据等危害网络安全的活动;不得提供专门用于从事侵入网络、干扰网络正常功能及防护措施、窃取网络数据等危害网络安全活动的程序、工具;明知他人从事危害网络安全的活动的,不得为其提供技术支持、广告推广、支付结算等帮助。”《数据安全法》《个人信息保护法》对数据处理各环节提出了详细的要求,爬虫技术获取数据如不符合合法正当、最小必要等原则,也违反《数据安全法》《个人信息保护法》。
2024年公布的《网络数据安全管理条例》(以下简称《条例》)第十八条从立法层面上确立技术中立的监管态度,明确网络数据处理者使用自动化工具访问、收集网络数据,应当评估对网络服务带来的影响,不得非法侵入他人网络,不得干扰网络服务正常运行。
《条例》第十九条要求提供生成式人工智能服务的网络数据处理者应当加强对训练数据和训练数据处理活动的安全管理,采取有效措施防范和处置网络数据安全风险。
2. 刑事
我国一直重视对违法爬虫的刑事监管。2019年9月,爬虫技术被推至舆论的风口浪尖,多家大数据和征信风控服务公司及高管被公安调查,涉事公司包括MX科技、XY科技等。这些数据风控服务商涉嫌利用爬虫技术非法获取个人信息。
另外,根据最高检公布的案例,2019年-2021年期间,某公司三名核心技术人员开发AI智能互动平台。该平台在未经某社区电商平台App授权的情况下,利用爬取数据通过技术手段破解该App私信接口,使其平台付费商户绕过该电商平台客户端私信系统,直接向其App用户发送私信,实现为付费商户投放广告的目的。2024年,法院以非法获取计算机信息系统数据、非法控制计算机信息系统罪科处某公司罚金,判决相关人员等6人有期徒刑并处罚金。
通过爬虫突破访问控制侵入网站,干扰系统运行,行为人可能会构成非法侵入计算机信息系统罪、破坏计算机信息系统罪;如进一步获取数据,如公民个人信息、商业秘密、著作权作品,行为人可能构成侵犯商业秘密罪、侵犯公民个人信息罪、非法获取计算机信息系统数据罪、侵犯著作权罪等;提供工具爬虫供他人使用,行为人构成提供侵入、非法控制计算机信息系统程序、工具罪。
从具体行为上看,行为人通过以下方式爬取网站存在较高的刑事风险:(1)高频率的自动化访问手段,对被爬取网站的正常运行造成阻碍;(2)使用伪造设备等手段突破被爬取网站的技术防护措施;(3)利用爬虫恶意删除数据库中数据或获取大量个人信息;(4)非法侵入敏感单位内网等。
3. 反不正当竞争
司法实践中,从搬运社交内容平台图文到抓取短视频平台视频等,大型互联网公司因爬虫产生的商业纠纷案例层出不穷。2025年6月27日新修订的《反不正当竞争法》为规制网络不正当竞争,明确新增数据权益保护条款,第十三条规定“经营者不得以欺诈、胁迫、避开或者破坏技术管理措施等不正当方式,获取、使用其他经营者合法持有的数据,损害其他经营者的合法权益,扰乱市场竞争秩序。”笔者理解新修订的《反不正当竞争法》对数据权益保护并不是禁止爬虫,该条强调的要件是使用不当行为获取数据、形成损害其他经营者的合法权益及损害市场竞争秩序,并不与《条例》中的技术中立监管相悖。
在新修订的《反不正当竞争法》之前,与爬虫相关的不正当竞争司法和行政执法案例,适用的是原《反不正当竞争法》中的原则性条款和网络不正当竞争行为兜底条款,上述条款可应对技术发展产生的法律滞后性。新修订的《反不正当竞争法》也沿用保留原《反不正当竞争法》第二条(新修订中仍为第二条)原则性条款,即“本法所称的不正当竞争行为,是指经营者在生产经营活动中,违反本法规定,扰乱市场竞争秩序,损害其他经营者或者消费者的合法权益的行为”和原《反不正当竞争法》第十二条第二款第四项(新修订中为第十三条),即“其他妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为。”
根据2025年7月市场监管总局发布的案例,镇江市某计算机软件有限公司自行研发并销售“w上货助手”和“w分销助手”等软件,可以提供商品信息数据“一键搬家”“一键代发”等服务,该公司在未经数据源电商平台及平台内经营者同意的情况下,利用该软件爬取购物平台商品信息数据,并一键上传至其他具有竞争关系的购物平台,构成对数据源平台及平台内经营者的实质性替代,妨碍和破坏了其他经营者合法提供的网络产品或服务正常运行,扰乱互联网市场秩序,损害了其他平台经营者的合法权益。监管依据《反不正当竞争法》第二条和第十二条第二款第(四)项的规定,科处该公司53万元罚款。
司法判例中,对于爬取行为是否具有正当性,法院多从是否违反Robots协议或法律声明、违反行业自律公约等角度考虑。
4. 知识产权保护
在湖南某公司与上海某公司著作权权属纠纷案中,法院判决认为上海某公司通过技术手段、有目的地抓取涉案作品信息,并为用户提供涉案作品,行为本身就是一种新的作品使用方式,理应取得相关权利人的授权许可。上海某公司未经湖南某公司的许可播放涉案作品,违背了湖南某公司的意愿,侵害湖南某公司的著作权。
从著作权法的角度来讲,抓取行为的本质是对信息的复制,因此该等行为有可能侵犯著作权人的权利。如果相关方通过爬虫抓取信息后在自身运营的网站上公开传播抓取信息,也可能侵犯信息网络传播权。
(二)自动化访问获取数据的法律责任
爬虫需要承担的法律责任包括三种:1. 民事责任,如抓取竞争对手的网站公开数据,目的为商业利用,可能违反《反不正当竞争法》,给竞争对手造成损害的,需要向竞争对手承担民事责任;2. 行政责任,如爬取非必要公开个人信息未及时删除,可能违反《数据安全法》《个人信息保护法》,可能被警告、科处罚款、吊销营业执照等;3. 刑事责任,强行破解登录网站,严重影响计算机系统运行的,可能构成破坏计算机信息系统罪,单位和个人都构成犯罪。
(三)自动化访问获取数据合规应对措施
2019年公布的《数据安全管理办法(征求意见稿)》就试图对爬虫进行细化规制,借助技术标准的具体量化,为爬虫风险划清边界。其第十六条规定:“网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。”该文件目前仍处于征求意见稿阶段。
《条例》第二十四条要求因使用自动化采集技术等无法避免采集到非必要个人信息或者未依法取得个人同意的个人信息,以及个人注销账号的,网络数据处理者应当删除个人信息或者进行匿名化处理。法律、行政法规规定的保存期限未届满,或者删除、匿名化处理个人信息从技术上难以实现的,网络数据处理者应当停止除存储和采取必要的安全保护措施之外的处理。
在爬取数据前,爬虫控制者应建立评估流程,结合爬取对象(是否为政府等网站)、抓取手段(是否违反被爬取网站法律声明)、抓取频率(是否容易影响网站运行)等因素综合评估违法风险,控制收集流量并及时删除采集的非必要个人信息。
四、AI模型间接获取外部数据合规性评估
(一) 间接获取数据来源
间接获取数据的方式主要包括从数据供应商处购买,如Neuronicx 、Btight data等数据供应商提供文本、图像、视频等数据集专门用于人工智能训练;在数据交易平台购买,如上海数据交易所、贵阳大数据交易所提供多种类型的数据集,数据交易所也可提供定制化数据集需求撮合服务,结合数据需求方个性化需求,定制专属数据集;通过开源平台获得免费数据集,如Kaggle、Awesome Public Datasets、OpenDataLab等平台。
(二)间接获取数据的合规评估要点
通过交易手段获取数据的,数据需求方应确认数据提供方的数据权利无争议,数据获取渠道和数据种类合法等。要求数据提供方就以下方面进行承诺,并对数据提供方的数据来源文件等进行审核。
1. 数据提供方资质和业务合法
(1)主体合法性:确认数据提供方为依法登记成立的企业、事业单位等合法组织,核查其营业情况信息,排除无合法主体资格的机构或个人。
(2)业务合法性:根据数据提供方的经营业务类型,判断是否属于需经监管部门事先批准或备案的范畴,并要求其提供对应的行政许可文件或备案证明,确保其业务活动符合监管要求。
检索数据提供方是否出现过因网络安全和数据合规发生过行政或刑事处罚的新闻、案例等,降低合作风险。
2. 数据使用不存在限制
数据需求方需核查自身模型训练行为,是否在数据提供方与第三方约定的数据处理范围内,重点确认:
(1)数据提供方与原始数据主体(或第三方数据持有方)签订的协议中,是否明确允许将数据用于模型训练场景;
(2)数据处理范围的限制条款(如使用期限、使用地点、使用场景等)是否对模型训练行为构成限制,确保自身使用行为未突破协议约定的边界。
3. 数据种类合法
参考《信息安全技术 数据交易服务安全要求》(2023版征求意见稿),数据提供方承诺提供的数据不包括以下信息:1)涉及国家秘密的信息;2)危害国家安全和社会稳定的信息;3)涉及损毁他人名誉及未经授权的身份、财产和其他敏感数据等特定个人权益的;4)涉及未经授权的企业数据、商业秘密等特定企业权益的;5)未经自然人或其监护人同意,涉及其个人信息的数据;6)侵犯他人肖像、名誉、荣誉等人格权的数据;7)未经有关部门授权,涉及公共利益、公共安全的公共数据;8) 未依法依规公开的原始公共数据;9)关系国家安全、国民经济命脉、重要民生、重大公共利益等国家核心数据;10)以欺诈、诱骗、误导等方式或者从非法、违规渠道获取的数据;11)其他法律、法规明确规定禁止交易的数据。
五、AI模型使用合成数据合法性评估
(一)合成数据定义
根据英国信息委员会的官方定义,合成数据是由数据合成算法生成的“人工”数据,合成数据是通过使用经过真实数据训练的模型生成,复制了真实数据(可能是个人信息)的模式和统计属性。合成数据包含两类:1)部分合成数据,生成特征仅综合真实数据的部分变量,如真实医疗数据集中存在入院时间、入院原因、位置,合成数据替换入院时间和位置,保留入院原因;2)完全合成数据,生成特征综合所有变量。[7]
(二)使用合成数据训练模型的优点和不足
使用合成数据的优势是可以替代真实数据的不足,且有些真实数据难以获得。但使用合成数据也存在风险,如利用个人信息合成数据,可能保留真实数据的原始特征,存在重新识别到个人的风险,或保留信息存在的偏见歧视等。此外合成数据也会产生模型崩溃问题,即模型生成的合成数据失真,再用于下一代模型训练时,会产出劣质内容,导致模型能力退化。如牛津、剑桥等机构的研究人员使用维基百科文章先训练了模型OPT-125m,并在前一代模型生成的文本上,训练了多代模型。随着迭代次数增加,模型输出结果逐渐退化,到第9代时,模型输出出现大量无关内容。
(三)合成数据评估重点
合成数据的合法性评估应包括以下方面。
1. 合成数据使用的算法模型不应侵犯第三方的合法权利。
2. 合成数据应使用多样的代表性真实数据确保剔除原始数据中与个人关联的特征。
3. 对合成数据动态进行检验,确保训练数据质量。
●注释:
[1]数据清洗:运用一定方法识别修正原始数据问题,如过滤掉缺失关键属性值数据,删除不需要内容等。
[2]数据插补:处理原始数据集中的缺失值,使用合理的估计值填补缺失值,保持数据完整性。
[3]数据提取:从各种数据源(文本图像音频等)中识别、提取并筛选出有价值信息。
[4]数据标注:对数据(文本图像音频等)添加标签、注释或说明,使其转化为机器可理解的结构化信息。
[5]数据增强:对现有数据转换生成新样本数据,如通过裁剪图片等,实现在不收集新数据的情况下增加数据集的多样性。
[6]Generative AI and the EUDPR. First EDPS Orientations for ensuring data protection compliance when using Generative AI systems.https://www.edps.europa.eu/system/files/2024-06/24-06-03_genai_orientations_en.pdf
[7]https://ico.org.uk/for-organisations/uk-gdpr-guidance-and-resources/data-sharing/privacy-enhancing-technologies/what-pets-are-there/synthetic-data/
特别声明:
大成律师事务所严格遵守对客户的信息保护义务,本篇所涉客户项目内容均取自公开信息或取得客户同意。全文内容、观点仅供参考,不代表大成律师事务所任何立场,亦不应当被视为出具任何形式的法律意见或建议。如需转载或引用该文章的任何内容,请私信沟通授权事宜,并于转载时在文章开头处注明来源。未经授权,不得转载或使用该等文章中的任何内容。
— 往期推荐 —
1. 蔡开明等:美国、欧盟以外其他国家对俄制裁、管制措施及中国企业的合规应对
2. 蔡开明等:欧盟对俄罗斯的制裁、管制措施及中国企业的合规应对
3. 《钱伯斯2022大中华指南》蔡开明等:中国海关、出口管制与经济制裁概述
4. 蔡开明等:《两用物项出口管制条例(征求意见稿)》解读及应对
5. 蔡开明等:中国首次发布出口管制白皮书,企业需要关注什么?
6. 蔡开明等:美欧对俄罗斯的制裁规定及应对建议
7. 蔡开明等:美将33家中国实体列入出口管制“未经核实名单”,中企如何应对
8. 蔡开明等:简析美国《NS-CMIC制裁条例》
9. 蔡开明等:跨境数据合规 - 《数据安全法》解读与企业合规管理的三个建议
10. 蔡开明等:《防止强迫维吾尔人劳动法》下执法战略公布,第一批黑名单落地!
11. 蔡开明等:《防止强迫维吾尔人劳动法》下执法战略公布!
12. 蔡开明等:《移动互联网应用程序信息服务管理规定》要点解读+法规对比
13. 蔡开明等:美国商务部2022年出口管制年会召开,持续关注中国、聚焦半导体产业
14. 蔡开明等:简析中美审计监管合作协议
15. 蔡开明等:美国针对先进计算及半导体制造物项实施新的出口管制措施
16. 蔡开明等:美国、欧盟、英国宣布对俄罗斯实施进一步制裁的背景之下,涉俄企业风险分析及合规应对
17. 蔡开明等:《个人信息出境标准合同备案指南(第一版)》发布,企业如何顺利完成个人信息出境
18. 蔡开明等:31家中国企业被列入美国实体清单
19. 蔡开明等:荷兰半导体出口管制新规重点解读
20. 蔡开明:美国证券交易委员会发布中国特定事项信息披露指导文件
21. 蔡开明等:数个中国企业被列入未经核实清单(UVL)
22. 蔡开明等:美国BIS发布新规,进一步扩大对俄罗斯、白俄罗斯的出口管制措施范围
23. 蔡开明等:简析美国商务部发布美国基础设施即服务(IaaS)相关拟议规则对中国企业的影响
24. 蔡开明等:俄乌冲突“两周年”,美欧等国再次对俄采取制裁行动
25. 蔡开明等:《保守国家秘密法》第二次重大修订,对企业有何影响?
26. 蔡开明等:美国禁止与特定国家进行敏感个人数据跨境交易
27. 蔡开明等:美国商务部发布联网车辆规则预先通知——解读并探讨中国企业的合规建议
28. 蔡开明等:美国总统拜登签发第14116号行政命令,以加强美国港口网络安全
29. 蔡开明等:美国三部门联合发布合规说明,重点提示外国主体应遵守美国制裁与管制规则
30. 蔡开明等:美国发布最终规则以升级针对特定SDN主体的管控
31. 蔡开明等:欧盟电池新法正式适用,企业如何开展供应链尽职调查
32. 蔡开明等:美国BIS发布两项关于新增最终用户和最终用途管控的拟议规则
33. 蔡开明等:欧盟《人工智能法案》合规义务解读
34. 蔡开明等:美国供应链安全审查——拟禁止采购涉及中、俄的网联车软硬件
35. 蔡开明等:欧盟Europrivacy数据保护认证机制解读
36. 蔡开明等:《网络数据安全管理条例》企业重点合规义务解读
37.蔡开明等:美国BIS发布先进计算芯片新规,实施针对先进计算集成电路的额外尽职调查措施
38. 蔡开明等:简析美国发布的针对中国及俄罗斯联网车辆最终规则
39. 蔡开明等:简析欧盟发布的第十六轮对俄制裁措施
40. 蔡开明等:美国出口管制透明度立法进程及执法趋势分析
41. 蔡开明等:简析美国解除对叙利亚部分制裁措施
42. 蔡开明等:人工智能AI产业合规之困:从多国政策监管到落地实践的关键挑战
43. 蔡开明等:简析美国《放松对叙利亚的出口管制》最终规则
本文作者
来源:大成律动