摘要:过去十余年,全球进入了数据爆炸增长的时代,数据正以前所未有的规模被创造和积累,这为人工智能的发展提供了肥沃土壤。[1]据统计,2020年全球产生的数据量已超过64泽字节(ZB),并预计到2025年将增长至约180 ZB[1]。中国的数据增速同样惊人。国家数据局
一、数据的崛起与AI的第一性原理
过去十余年,全球进入了数据爆炸增长的时代,数据正以前所未有的规模被创造和积累,这为人工智能的发展提供了肥沃土壤。[1]据统计,2020年全球产生的数据量已超过64泽字节(ZB),并预计到2025年将增长至约180 ZB[1]。中国的数据增速同样惊人。国家数据局发布的报告显示,2024年我国年度数据生产总量首次突破40 ZB,同比增长25%,人均年产数据约31.3 TB[2]。然而,目前仅约2.9%的数据被保存,已存储数据中被实际利用的仅六成左右[3]。庞大的数据资源正源源不断地产生,但如何高效开发利用,成为推动人工智能进步的关键课题。
人工智能技术的发展被广泛认为依赖于“三要素”:数据、算法和算力[4]。其中,数据被视作基础和原料,算法是将数据转化为智能的技巧,算力则提供必要的计算支撑[4][5]。早期的AI研究更多依赖人工构建规则和知识,试图模仿人类思维模式,但收效有限[6]。一个转折点出现在20世纪70年代,研究者贾里尼克教授在语音识别领域大胆尝试“以数据取胜”的路线——将海量语音数据输入计算机,通过统计学习来提高识别率[7]。事实证明,这种大数据驱动的方法远比试图手工教会计算机理解人类语言有效。从那时起,学界逐渐认识到:让计算机获得智能的钥匙其实是大数据[8]。复杂的智能问题可以转化为对海量数据的统计分析问题,而计算机正擅长处理庞大的统计数据。这一“以数据为中心”的范式奠定了现代人工智能的第一性原理——数据是智能涌现的根本驱动。
进入“大数据时代”后,各种智能应用取得飞跃式进展,正是得益于数据规模和质量的提升。例如,机器视觉领域的突破离不开大规模图像数据集的支撑;自然语言处理的飞速发展亦归功于互联网上亿万文本语料的训练。只有经过大量多样的数据训练,AI模型才能具备对新样本的泛化能力。实践表明,如果现实中出现了训练集中未包含过的情况,模型往往难以正确应对[9]。因此,数据的丰富度和覆盖面对于提升人工智能的智能水平至关重要。当前时代几乎每时每刻都在产生海量数据——智能手机、传感器、摄像头等无处不在,每天都记录下多元且海量的非结构化数据[10]。这些数据经过清洗、标注等预处理后,才能为AI算法高效利用[11]。由此可见,数据之于人工智能,犹如粮食之于人类,燃料之于引擎;没有海量高质量的数据,先进的算法和强大的算力也难以施展拳脚。
近年来,人工智能模型规模呈指数级扩张,背后同样是数据支撑和算力提升的双重驱动[12]。例如,被誉为“里程碑”的GPT-2在2019年发布时拥有15亿参数,训练所需数据和算力成本仅约5万美元;而短短三年后问世的PaLM模型参数规模达5400亿,训练成本估计高达800万美元[13]。大模型参数量激增的同时,也反映出其训练所需的数据量和复杂度成倍增长[12]。斯坦福大学的AI指数报告指出,自2010年代以来,AI系统的参数数量持续攀升,这在很大程度上归功于可获取数据的爆炸式增长以及硬件的进步[12]。换言之,模型越大,想要训练出可靠的智能行为,就越需要海量且多样的数据来“喂养”。特别是大型语言模型、图像生成模型等,往往以全网爬取的海量文本、图像数据为基础,没有这些海量训练语料,模型的高性能无从谈起。
中国在人工智能数据资源方面的积累也日益雄厚。一方面,国家层面正加速推动数据资源向生产要素转变,全国各类主体加快布局人工智能的数据投入。2024年的统计显示,全国高质量数据集数量同比增长了27.4%,为人工智能训练和应用提供了有力支撑[14]。开发或应用人工智能的企业数量同比增长36%,利用大模型相关数据技术的企业更是猛增57.21%[14]。这些数据反映出,企业纷纷意识到数据对于AI研发的重要性,主动投入建设和获取高质量的数据集,以提升模型训练效果。另一方面,各行业对数据的需求与日俱增,数据生产和消费形成良性循环。例如,智能网联汽车、智能家居、无人机等设备产生的数据增速在各类数据来源中名列前茅[15]。丰富的应用场景不断涌现,反过来又进一步丰富了可用于训练AI的现实数据。在数据-算法-算力的循环推动下,人工智能技术正进入加速演进的新阶段。
综上,数据的崛起重塑了人工智能发展的底层逻辑,成为驱动AI蜕变跃升的第一性原理。正如业界共识所言:“人工智能三要素缺一不可”,其中数据是燃料和基础,决定了AI系统能够达到的高度[4][9]。没有充足的数据,算法再精妙也巧妇难为无米之炊;没有可靠的数据,算力再强大也只是空转机器。可以预见,随着全球数据总量在未来几年继续呈指数级攀升[1],“数据赋能智能”的趋势将更加凸显。未来人工智能的突破,很大程度上取决于我们能否有效收集、更好共享以及安全利用这笔前所未有的海量数据财富。数据为王的时代已经到来,它不仅是人工智能发展的基础性要素,更在引领AI技术演进的方向。
二、数据的分类、价值与权属
随着数据规模和应用的爆发式增长,如何对纷繁复杂的数据资源加以分类管理、评估价值并明确权属,已成为数字时代亟待解决的核心问题。这既关系到数据安全与隐私保护,也直接影响数据要素的市场化流通和价值实现[16][17]。本章将分别探讨数据的分类体系、经济价值及其权属归属问题。
1.数据的分类体系
数据呈现多样化特征,不同行业、不同行为主体产生的数据类型各异,敏感程度和安全要求也各不相同[18][19]。因此,各国普遍强调建立数据分类分级制度,根据数据性质和重要程度实行差异化管理。中国《数据安全法》确立了数据分类分级保护的基本制度,要求各地区各部门明确所辖数据的重要程度并实施相应保护措施[20]。《数据安全法》第21条提出按数据在经济社会中的重要性和一旦泄露或滥用可能造成的危害程度,对数据进行分类分级,并特别界定了“重要数据”和“核心数据”等敏感类别[20]。在此框架下,行业监管部门纷纷制定细化规则。比如,工业和信息化部2022年底发布的《工业和信息化领域数据安全管理办法》明确将工信领域的数据划分为一般数据、重要数据和核心数据三级[21]。这一分级是依据数据的重要程度及受侵害后的影响广度、危害深度来划分,通过差异化措施实现纵向精细化管理[22]。同时,该办法要求对重要数据和核心数据实行备案管理,登记数据的来源、类别、规模、用途、跨境传输等信息,以强化监管和安全保障[23]。由此可见,中国已经初步建立起从国家到行业的三级数据分类分级体系,为统筹数据发展与安全提供了基准[24][25]。
数据分类包含横向的类别划分和纵向的级别划分两个维度[26]。类别划分侧重于数据内容或属性,根据属性特征将数据归为某一类集合;级别划分则侧重于敏感程度或重要性高低,将数据划分为不同安全级别并施加相应的保护规则[26]。常见的分类依据包括:按来源主体分,可分为个人数据、企业数据、政府数据等;按内容性质分,有个人信息数据、公共事务数据、行业专业数据(如金融数据、医疗数据、工业数据等)[27];按数据形态分,有结构化数据与非结构化数据;按用途分,有原始数据与衍生数据等等。不同类型数据往往具有截然不同的法律和社会属性:例如,个人信息数据带有人格权利属性,需重点保护个人隐私;企业运营数据则蕴含商业价值,更接近财产权益;政务和公共数据涉及公共利益和国家主权,关乎国家安全[27][28]。又如“自然数据”(地理、气象等)通常被视为公共资源。而同一份数据在不同场景下可能同时具备多重属性,从而产生权属交叉的问题[29]。一个典型案例是新冠疫情期间的健康码数据:包含个人行程轨迹等敏感信息,当互联网公司或电信运营商收集时,它是企业数据;政府部门出于防疫目的再收集汇总时,又成为政府数据[29]。因此,同一用户的行踪轨迹数据在不同场景下兼具个人数据、企业数据和政府数据的特征,权属归属因场景而异[29]。这种复杂性说明,只有通过严谨的分类分级,明确不同类型数据在不同情境下的属性和责任,才能理清权责边界,避免冲突矛盾[17]。
除类别外,不同敏感级别的数据在流通和保护上也应有所差异[19]。一般来说,“核心数据”通常指一旦泄露将严重危害国家安全、经济命脉或重大公共利益的数据,必须予以最高强度保护,严格限制流通;“重要数据”则是对国家安全、公共利益有较大影响的数据,也需要强保护和严格控制共享范围;而“普通数据”或一般数据对国家和社会危害有限,在确保基本安全措施下可以较自由地流通使用[22][23]。这种基于数据重要性和敏感度的分级保护,在中国已经由法律和部门规章加以明确。例如工信领域管理办法就在法律基础上,细化了何种情形属于重要或核心数据,并规定满足任一判定条件即可列入相应级别,从而提高了标准的可操作性[23]。类似的分级框架正在成为平衡数据安全与发展、指导各行业数据治理的通用范式[24][25]。通过对数据进行科学的分类分级,做到“该管的管住、该放的放开”[30],既保障了国家安全和个人权益,又为数据要素的合理流通和市场化奠定制度基础。
2.数据的价值评估与经济作用
数据被誉为21世纪的“新石油”,其价值体现在对经济增长和商业创新的巨大推动作用上。然而,与有形资产不同,数据价值的衡量极为复杂。目前只有一小部分数据的价值能通过市场交易直接体现出来,更多的数据价值则是隐性和间接的[31]。据经合组织(OECD)研究,由于大多数数据并非直接售卖,其价值难以用市场价格全面衡量[31]。例如,美国2019年直接的数据销售收入约为333亿美元[32]。相比之下,数据通过其他方式创造的价值更为可观:同年美国依托用户数据的互联网广告收入中,据估算数据贡献部分高达790亿美元[33][34]。这说明企业更多是利用数据来提升产品和服务,从而间接获取收益,而非将数据本身当商品出售。正因如此,传统国民经济核算并未充分反映数据资产的价值。为了弥补这一缺口,各国开始尝试将企业自有数据的投入视作无形资产进行估算。加拿大统计局的实验显示,2018年加拿大企业部门自建数据资产的投资额估计在295亿至401亿加元之间,自1990年以来呈持续增长趋势[35][36]。据测算,2018年数据资产存量相当于加拿大当年增加值的1.4%~1.9%,在荷兰约为2.4%~3.0%(2017年),在美国约为0.8%(2020年)[37]。这些试算表明,数据已经成为国家经济中不可忽视的一类资产,其投入和积累对生产率和产出的贡献日益显现。
在微观层面,数据赋能企业创造了巨大的商业价值。从电商到社交媒体,再到制造业和金融业,各行业的领军企业无不将数据作为核心战略资源。例如,电商平台通过对用户浏览和购买数据的分析,实现了千人千面的精准营销,大幅提高了成交率和用户黏性。社交媒体和互联网服务公司利用用户数据投放定向广告,2010年代以来数据驱动的广告模式几乎重塑了广告业版图,使数据成为这些公司的摇钱树[32]。制造业中,工业物联网传感器采集的设备数据帮助工厂优化生产流程、预测性维护设备,从而降低停机损失、提高效率。金融领域,基于海量交易和行为数据的风控模型使银行和保险公司能够更准确地评估风险,提供更个性化的产品。可以说,数据驱动决策已成为现代企业提升竞争力的关键。麦肯锡等机构的研究发现,善于利用大数据分析的企业往往比同行具有更高的生产率增长和利润水平。此外,数据的价值还体现在对创新的催化作用——AI模型的训练依赖大规模数据集,一个突破性的算法往往需要以海量数据为燃料。近期兴起的生成式人工智能热潮,就源于海量文本、图像数据资源的积累和开放,使训练超大模型成为可能[12]。可以预见,随着数据要素与实体经济深度融合,越来越多传统行业将借助数据分析和AI实现数字化转型,从而释放数据价值红利。
宏观层面上,数据要素对经济增长的乘数效应正在被证实。数据既是生产要素,也是全社会的创新源泉。据中国权威机构预测,每增加10%的数据流动量,可能带动GDP增长0.2%,并使全行业平均利润提升约10%[38]。这意味着,促进数据在经济中的流通和共享,将对整体经济绩效产生积极影响。也难怪各国政府日益重视数据基础设施和数据要素市场建设,希望通过激活“沉睡的数据”来撬动经济新动能[3]。例如,中国在2022年明确将数据作为第五类生产要素(与土地、劳动力、资本、技术并列),并出台了加快培育数据要素市场的政策意见[39]。目标是完善数据资源确权、定价、交易、流通的机制,让数据资源充分参与经济分配和价值创造[40][41]。再如欧盟在《数据战略》中也强调,通过开放公共数据和促进企业间数据共享,能够催生数据驱动的创新服务,为经济增长注入新活力。实际案例方面,数据交易和流通市场正在兴起:一些领先城市设立了数据交易所,为数据供需双方提供挂牌交易、定价发现和法规合规的平台。例如,上海数据交易所自2021年底成立以来,已挂牌数据产品逾2700个,2023年数据产品交易额超过11.6亿元人民币[42]。该交易所还探索“数据资产化”服务,推出数据质押贷款等创新金融产品。截至2024年上半年,已联合多家银行为企业完成约10亿元的数据资产融资,并试运行国内首个数据资产交易市场[43][44]。这表明数据正在被金融机构认可为有价值的资产,能够用于融资增信。数据要素市场的逐步成熟,不仅使数据价值获得货币化体现,也反向推动企业更加重视数据治理和质量提升,形成良性循环。
然而,全面评估数据价值仍有诸多挑战。首先,数据价值具有主观性和情境依赖。同一数据对不同主体、在不同用途下,价值可能天差地别。例如,一组消费者行为数据对广告商价值连城,对无关行业则可能毫无意义。其次,数据的价值往往在其使用过程中体现,而非数据本身的买卖。数据作为一种“准公共品”,可以无限复制使用,一旦共享给多个方,其边际成本极低但边际效益可持续累积。这与传统消耗型要素截然不同,也使得简单套用买卖价格来衡量数据价值并不充分。再次,数据的价值实现依赖于配套的技术和能力。如果缺乏分析挖掘数据的能力,再珍贵的数据也难生价值。很多企业囤积了大量数据却缺乏利用手段,结果造成数据资产闲置。这方面的统计显示,目前我国约有超过三分之二的数据处于“沉睡”状态,并未转化为直接的经济效益[3]。因此,释放数据价值需要的不仅是数据本身,还包括人才、算法和算力的投入,以及良好的数据治理体系。最后,数据价值还涉及社会价值与公共价值的部分。例如开放政府数据所创造的便民服务、科研数据共享所促进的科技进步等,其价值难以货币量化,但对社会福祉意义重大。
总的来说,数据的经济价值在微观和宏观层面都已显现并日益增长。我们正从“经验驱动”转向“数据驱动”的经济形态。要充分挖掘这座“数字金矿”,需要建立健全的评估和核算方法,将数据资产纳入企业和国家的资产负债表,也需要促进数据有序流通,让数据价值在更多场景中兑现。同时也要认识到,数据价值的获取并非零和游戏——通过共享和开放,数据可以多方增值,实现“用者增值、分享共赢”的效果。正如OECD报告所指出的,数据价值会受到其治理框架的影响:健全的制度能让数据创造更大经济和社会价值[45]。因此,数据价值的实现最终离不开合理的权属界定和法律保障,这正是下一节要讨论的内容。
3.数据的权属问题
在讨论数据权属前,需首先明确:数据不同于传统有形财产,其非排他性和可复制性使得经典的所有权概念难以直接套用[17]。一份数据往往可能关系到多个主体的权益,这使“谁拥有数据”成为一个复杂的问题。当前,各国在法律上普遍尚未将数据界定为一种可专属占有的财产,但围绕数据的权益束(bundle of rights)正逐步明晰和划分。
以个人数据为例,法律更多赋予的是自然人的人格权益和控制权,而非财产权。比如欧盟《通用数据保护条例》(GDPR)和中国《个人信息保护法》都确立了个人对自身信息享有知情同意、访问、更正、删除等权利,但并未宣称个人“拥有”其数据的财产性权利。这种立法选择是基于保护个人尊严和隐私的考量。如果将个人信息商品化为财产,一方面可能导致对弱势群体的不公(如穷人被迫“卖”隐私),另一方面人格权益难以用金钱衡量。不过,在实践中,个人数据的控制权让位于数据收集者的情况屡见不鲜,用户往往通过隐私政策将数据使用的许可权授予企业。因而在互联网平台,个人数据通常由平台企业实际控制和处理,个人仅在滥用或违法使用时依法律寻求救济。这造成了数据权属的一个基本矛盾:数据涉及个人却由企业持有,个人享有的只是受保护权利而非占有权。
企业数据方面,企业在生产经营中产生、收集的数据一般被视为企业资产,但严格说并没有明确的法律所有权。企业对数据的权利更多体现在商业秘密保护和合同行为中。如果一份数据集不向公众公开,并具有商业价值,企业可通过商业秘密法禁止他人不正当获取和使用。但商业秘密要求数据保密性,一旦数据广泛可见,这一途径便不适用。另一途径是通过合同约定,如平台与合作方约定数据使用权限、禁止二次传播等,以合同权利维护数据权益。此外,在一些司法案例中,法院倾向于承认数据集作为特殊资产受现有法律保护。例如,欧盟建立了“数据库权利”,赋予对数据集投入大量人力物力的制作者一定期限的特殊权利(sui generis数据库权)。中国目前没有专门的数据库权,但著作权法下汇编作品的规定和反不正当竞争法的通用条款,有时被用来保护具有独创性或经过整理汇编的数据集免遭恶意抄袭。不过,总体而言,企业对其数据资源并无明确的物权,更多是一种事实上的控制与使用权。
政府公共数据方面,通常被视为国家或社会公共资源,政府部门对其拥有管理和开放的职责,而不是排他占有权。各国政府倾向于将政务数据开放共享,以服务公共利益。同时也会通过立法明确某些公共数据不得私有化或买卖,以保障主权和公共利益(例如地理信息、人口统计数据等)。因此,公共数据更多谈“管理权”和“授权使用”,而非传统所有权。
面对以上现实,各界一直在探索新的数据权属框架。中国在2022年出台的《关于构建数据基础制度更好发挥数据要素作用的意见》提出了“数据产权结构性分置”的理念[46]。所谓分置,是尝试将数据相关的权利拆分成不同层次,由不同主体分别享有,从而平衡多方利益。具体而言,意见提出建立“数据资源持有权、数据加工使用权、数据产品经营权”等分置机制[46]。简单理解,可以将数据生命周期划分为原始数据、加工后的数据、以及数据产品三个阶段,对应地:数据的提供者或原始收集者拥有对原始数据的持有权,数据处理者在合法获取数据后拥有对其加工和利用的权利,而数据产品的经营者(如数据交易平台、数据产品开发商)对最终产品享有经营收益权。在这个框架下,不同环节的参与者都能依法享有一部分权益,又都不对数据享有完全的排他所有,从而实现“共同使用、共享收益”[46]的新模式。这一创新尝试,正是希望解决数据权属不清的问题,为数据要素的市场流通提供基础性的制度保障[46]。当然,这仍属于宏观原则设计,具体如何落实还有待出台配套细则和试点经验。
此外,该《意见》还区分了不同类型数据的确权思路:对于公共数据,明确政府部门对履职过程中产生的公共数据应加强汇聚共享,通过授权方式供社会使用,在确保隐私和安全前提下实现更大范围的利用[47]。对于企业数据,提出对不涉及个人信息、公共利益的企业数据,赋予数据收集处理主体依法持有、使用和收益的权益,保障其投入能够有回报[48]。也就是说,企业对其业务中收集的非敏感数据,享有类似所有权的权益(持有权、使用权、收益权),以激励数据供给。[48]而对于涉及个人信息的数据,强调数据处理者必须基于个人授权范围来使用,规范处理活动,且不得超越授权范围滥用个人数据[49]。这一套框架力图在公共利益、企业利益和个人权益之间找到平衡点,被称为具有中国特色的数据产权制度体系雏形。
国外在数据权属上的探索也在进行。欧盟提出“数据主体权利”体系下,公司被视为数据的保管者(controller),个人是数据主体但非财产所有者,强调个人对数据流转的控制。而在公共和工业数据方面,欧盟发布《数据治理法案》(DGA)鼓励设立中立的中介机构和数据共享机制,实现受信任的企业间数据共享,并提出“数据信托”等概念来处理多方权利。美国则主要依靠行业自律和合同约定,没有统一的联邦个人数据产权框架,但一些州讨论过设立“数据红利”让大公司分享收益给用户,反映出对数据价值归属的关注。
需要指出的是,明确数据权属并不意味着一定要给予某单一主体完整的所有权。相反,恰当的做法可能是厘清多方在数据生命周期中的权利义务。比如,在一辆联网汽车产生的数据中,车主、汽车制造商、服务提供商都各有利益相关:车主关心隐私和使用权益,制造商重视整体数据用于改进产品,服务商希望利用数据提供增值服务。法律可以规定:车主对涉及个人隐私部分拥有控制权,制造商对汇总的非个人数据拥有使用权和一定的商业利益权,而服务商只能在获授权情况下使用数据且不得侵犯前两者权利。这种精细化的权利分配,需要通过立法和行业规范逐步明确。在没有明文规定之前,许多纠纷只能通过诉讼和商业谈判解决。例如,美国曾发生过知名案例:一家创业公司擅自抓取社交平台上的公开个人资料数据,平台试图禁止并提告,法院最后支持了抓取方,认为公开网页数据不属于平台独占财产。这反映出,在公共可获取的数据上,所有权主张难以成立,只能用其他法律(如反黑客或用户协议)去规范。
总之,数据权属是数据要素市场培育的基础。如果权属不清,数据交易各方权益无法保障,交易成本和法律风险都会很高。因此,各国都在摸索为数据确立清晰的“权利地图”。目前的趋势是,不赋予数据类似有形物那样的单一所有权,而是根据数据类型和使用场景,将权利拆解给不同利益相关者。这种思路既保护个人和公共利益,又给予数据收集者和开发者合理的收益空间。未来,随着更多实践经验累积,我们有望看到数据权属的法律定义逐步清晰,从而为数据资源的流通和利用提供更明确的法律基础。
三、数据的法律属性与经济属性融合
数据兼具法律属性和经济属性,这在当前数字经济中表现得尤为突出。一方面,数据承载着个人隐私、知识产权、公共利益等法律要素,牵涉国家安全和社会伦理,需要法律严格规范;另一方面,数据又是新的生产要素和资产,蕴含巨大经济价值,需要流通使用才能释放其红利[39][16]。如何实现数据的法律属性与经济属性有机融合,成为政策制定者、企业和社会共同面对的课题。简言之,就是要在保障数据安全和权益的前提下,促进数据合理高效地利用,以兼顾“安全”与“发展”两大目标[40][17]。
1.法律属性:保护、安全与合规
数据的法律属性主要体现为对安全、隐私、公平等公共利益和个人权益的关注。各国相继出台法律法规,对数据的收集、存储、加工、传输予以规范,构建数据治理的法律框架。在中国,三部里程碑式的法律构成了数据法律治理的基石:《网络安全法》(2017年)奠定了关键信息基础设施安全、个人信息保护和数据跨境等基础要求;《数据安全法》(2021年)全面确立了数据安全管理制度,包括数据分类分级、重要数据保护、数据出境安全评估等;《个人信息保护法》(2021年)则专门规范个人信息处理活动,与欧盟GDPR类似,确立了处理个人数据的合法性基础、敏感个人信息特别规则、个人权利和监管机制等。除此之外,配套的行政法规和部门规章也密集出台,例如前述工信部的《数据安全管理办法》、国务院发布的《关键信息基础设施安全保护条例》等。这些法律法规从不同侧面明确了数据处理者在法律上的义务:确保数据安全(通过技术措施和管理制度防范数据泄露篡改等风险)、保护个人隐私(取得用户同意、最小必要收集、匿名化处理等)、防范数据滥用(不得非法买卖、严禁利用数据从事侵犯人格尊严或不正当竞争的行为)以及接受监管(如定期评估风险、向主管部门报送重要数据目录和安全报告)等。
具体而言,法律对数据的保护主要分为几个层次:对个人信息,法律强调“以人为本”,要求任何对个人数据的处理都需有合法合理的目的并经个人授权,同时时刻注意不侵犯个人尊严和合法权益。《个人信息保护法》列举了处理个人信息的六大合法性基础(个人同意、履行合同、法定职责、公共利益等),并对敏感个人信息(如生物识别、健康、金融账户、行踪轨迹等)设定了更严格的保护措施,包括单独同意和必要性评估等。此外,个人还被赋予查询、更正、删除自己的数据,以及撤回同意、请求解释自动化决策等权利。对重要数据和核心数据,《数据安全法》要求实行严格的保护制度,包括制定重点保护目录、落实更高级别的存储和访问控制、安全审查和风险评估,并规定核心数据实行更严管制(核心数据通常不得出境,重要数据出境需安全评估)。对公共数据,法律通常要求政府部门在确保安全和隐私的前提下开放共享,以服务公众,但也明确涉及国家秘密、公共安全的数据不得擅自开放。对于跨境数据传输,许多国家出于数据主权和安全考虑设立了管制。中国要求关键信息基础设施运营者和大量敏感个人信息的处理者将相关数据存储在境内,确需出境要通过安全评估;欧盟则通过GDPR要求数据出口目的地有充分的数据保护水平或使用标准合同条款等保障措施。这些措施体现出数据的跨境流动被作为法律监管的重点领域,与贸易规则紧密相关。
此外,数据的法律属性还涉及竞争和公平的问题。大型互联网平台凭借数据优势形成市场支配力,引发“数据垄断”担忧。为此,反垄断执法开始关注平台滥用数据排除竞争的行为,强调数据应公平开放给符合条件的市场参与者。欧盟的《数字市场法案》(DMA)就是专门针对超级平台的数据行为进行规制,要求其允许用户数据便携、禁止将不同服务的数据交叉滥用等。中国反垄断指南也提到,要防止经营者利用数据、算法形成壁垒。
总的来说,数据的法律属性确保了数据在使用过程中的安全性、合法性和伦理性。法律的约束为数据经济设定了红线和底线:个人隐私不受侵犯,国家安全不被危害,公平竞争不被扭曲。只有在这样法治的轨道上,数据的开发利用才具有可持续性和公众信任基础。这构成了数据经济的“安全阀”。
2.经济属性:流通、交易与创新
与法律维度相对应,数据的经济属性强调的是数据作为生产要素所具有的流通性、增值性和可交易性。要发挥数据的经济价值,必须使数据在合规前提下高效地流动起来。正如上文提到的数据要素市场建设,其核心就是要降低数据流通的门槛和成本,让数据从沉睡状态转化为可以被多方使用的“活数据”[3]。经济属性要求构建能够定价、交易和分配收益的机制,将数据变为类似商品和资产的存在。
推动数据流通交易,需要创新制度安排和技术工具。制度层面,各国都在探索数据交易平台和数据中介的模式。中国目前已涌现出多家数据交易试点平台,如上海、北京、广州等地的数据交易所。这些平台通常制定数据产品标准合同,提供数据资产登记、质量评估、交易撮合、交付和监管备案等服务,目的在于营造可信的交易环境。在上海数据交易所的实践中,他们发布了数据交易规则体系,包括“一项规范,六项指引”,明确了数据产品挂牌、交易流程、参与方资质、数据定价方法等标准[50]。同时,引入了所谓“可信执行环境”“数据脱敏”“水印追踪”等技术手段保障交易中的数据不被滥用。再如,上海数交所还设计了“数易贷”等产品,将数据资产的价值通过金融手段盘活,把数据变成可质押贷款的资产[51]。2023年,上海实现了全国首单数据产品知识产权质押融资,即将企业的数据产品视为一种无形资产,由银行认可其价值并提供贷款[52]。这些探索为数据经济属性的实现提供了样板:一旦数据的产权和价值可以被市场认可,那么数据将真正成为企业的“第五类资产”。
技术层面,隐私计算和数据安全技术的发展为数据在保证法律合规的条件下流通提供了可能性。近年来,联邦学习、多方安全计算、差分隐私、可信执行环境(TEE)等技术逐渐成熟,能实现“数据可用不可见”[47]的效果。比如,多方安全计算允许在多源数据不出本地的情况下,对加密的数据进行联合计算,输出有用的统计或模型,而各方原始数据互不可见。这在医疗、金融等领域已有应用,实现了“数据不动、模型动”的新范式。在这种模式下,各机构的数据留存在本地受控环境,但通过算法协同,达到了类似数据共享的效果,同时法律上仍符合隐私和数据安全要求。再如,联邦学习已被用于银行间联合风控建模、医院间联合训练AI诊断模型等场景,实现1+1>2的效果。差分隐私技术则通过在数据中引入噪声,保证输出的统计结果难以还原个人敏感信息,Google和苹果等已在产品中应用以收集用户数据又不侵犯隐私。还有区块链和可验证计算技术,则用于构建数据可信流通的基础设施,例如用于记录数据交易的过程、防止篡改并追溯来源。这些技术手段提升了数据流通的可信度和安全性,使数据的经济利用和法律合规可以兼得。在国家层面,中国正在推进“可信数据空间”和“隐私计算基础设施”的建设,以大规模应用这些工具,解决数据利用过程中的制度和技术障碍[53]。
数据经济属性的发挥还需要收益分配机制来调节多方关系。如果数据的使用产生了收益,如何在数据提供者、数据处理者、平台以及数据所涉及的个人之间分配利益,是一道现实难题。如果分配不公,可能挫伤其中某方的积极性,或者引发权益纠纷。对此,中国的数据要素政策文件中提出,要健全数据要素收益分配机制,探索由市场决定数据价格、由各参与方按贡献分享收益的模式[40][46]。例如,在公共数据开放中,规定用于公益目的的可以无偿使用,用于商业目的的可以有偿使用[47]。又如,对于企业间的数据共享,可以引入“数据使用权交易”概念,让数据提供方通过授权使用获取收益,而不转让数据所有权。这类似于知识产权许可使用的模式。在个人数据方面,也有学者建议引入“个人数据红利”或“数据股权”概念,让平台在利用用户数据获利时,拿出一定比例回馈用户。不过,目前这种机制尚未大规模实施,但可以预见随着公众意识提高和政策引导,未来个人有望分享更多由其数据产生的经济价值。
3、法经融合:平衡之道
实现数据法律属性与经济属性的融合,本质是在保护与利用之间寻求动态平衡。为此,需要立法、监管、市场、技术多方面协同发力。
首先,立法和监管应当秉持审慎包容的原则。既要严守安全与隐私底线,又要避免过度管制扼杀数据流通的活力。中国在这方面的表述是“把该管的管住,该放的放开”[30]。具体来说,对涉及国家安全和重大公共利益的数据,坚持最严格的保护和审查,如核心数据禁止出境、涉密数据严防泄漏;但对于一般的数据,应尽量降低流通障碍,鼓励合法合规地共享和交易。监管部门可以通过分类指导,对不同行业、不同敏感度的数据制定差异化的流通规则。例如在金融、医疗等高度敏感领域,数据共享需经过许可和脱敏处理;而在公共交通、气象等领域,可以开放更多数据给社会创新使用。最近,欧盟、美国等也在讨论针对AI的大模型训练提供更多数据豁免(如版权数据的使用许可),以促进创新,同时再制定配套措施减少对权利人的冲击。这种思路也是在平衡保护与发展的范畴。
其次,市场机制要发挥作用,激发数据要素潜能。政府可以搭建公共平台或支持行业组织来促进数据交易,并通过示范项目、财政激励等手段培育数据要素市场。例如提供数据流通沙盒,在特定区域或行业先行试点数据流通新模式,积累经验后再推广。还可以鼓励行业数据联盟,由多家单位按共同标准分享数据,实现互惠共赢。比如欧洲的“Gaia-X”数据基础设施就是在各国政府支持下,由企业联合打造的一个跨行业、跨国界的数据共享网络,旨在形成一个受欧洲价值观(安全、隐私、自主)保护的数据空间。中国的一些地方也成立了“城市数据联合体”,由政府牵头整合公共和企业数据资源,共建数据应用场景。这些探索都是为了让数据能在安全前提下“流动起来”,用市场化方式促进数据资源配置优化。
再次,技术和标准提供必要支撑。要实现法律与经济兼顾,必须依靠技术手段将法律要求嵌入数据流通过程。如前述隐私计算技术,让“可用不可见”成为可能,就是将隐私保护内生到数据利用中。此外,建立统一的数据格式标准、元数据标准、质量评估标准也很重要。只有标准统一,数据才容易被不同主体理解和使用,交易成本才能降低。近年来各国标准组织都在制定数据流通和交易相关标准,比如ISO的数据交易参考架构、IEEE的个人数据同意标准等。中国国内也发布了数据流通交易技术标准体系框架,为数据确权、定价、交易、监管提供标准依据[54]。这些标准有助于实现“规则随数据走”,确保数据无论在哪流通,其安全标签、敏感级别、使用权限等信息都随附不丢失。未来,随着可追溯、可审计的数据治理技术(如区块链存证、水印技术)的普及,监管部门可以更放心地放开数据流通,因为一旦出现滥用可以追责溯源。这种信任基础的建立,将极大促进数据经济的繁荣。
最后,需要观念和人才的转变与支持。各组织应树立“合规即发展”的理念,认识到只有兼顾安全和隐私,数据利用才能走远。企业在谋求数据商业化时,应将合规成本视为长期投资,通过主动加强数据治理来换取用户和监管的信任,从而赢得更大空间。对于政府,则应更加开放创新,拥抱新技术、新模式,及时根据实践调整政策。培养既懂技术又懂法律的复合型人才也十分关键——他们将扮演数据合规官、数据资产评估师等新角色,在企业内部和市场中保障数据合法合规流动。
案例分析能够具体展示法经融合的效果和挑战。例如,滴滴出行的案例就体现了数据安全监管与企业数据经济活动的冲突和平衡。滴滴作为掌握海量出行数据的平台企业,出于商业战略在境外上市时引发国家数据安全审查,被认定存在数据安全隐患而受到严厉处罚和整顿【注: 滴滴案涉及《网络安全法》《数据安全法》等综合适用】。这一事件警示大型数据企业,经济活动不能忽视法律红线,否则不仅经济上受损,也可能危及用户和国家安全。经过整改,滴滴重新上线时据报道加强了数据本地存储和安全管理,并主动探索数据安全合规的新举措。从长远看,这有助于企业在国内外运营中树立可信数据实践,保障了其数据价值的持续发挥。再如,上海数据交易所的实践案例则展示了融合的积极一面:某省市将其城市综合数据资产在数据交易所挂牌,经过专业评估估值1.92亿元,并用于质押融资[55]。为了促成这笔创新融资,交易所和银行设置了严格的前提条件,包括确保数据产权清晰、评估准确,以及建立动态披露和风险处置机制等[56]。监管机构对此采取了包容审慎态度,在试点范围内允许创新。这一案例表明,如果能将法律要求融入数据产品设计,实现风险可控,那么数据的经济价值就能被市场主体认可和利用,从而真正做到数据要素的“合法变现”。
总而言之,数据的法律属性与经济属性并非对立,而是可以通过制度设计和技术创新达到相辅相成。法律保障是前提,经济利用是目标,两者统一于数据要素服务于人类福祉和经济发展的愿景。在保护数据安全和个人权益的“红灯”之下,也要为数据流通和创新亮起“绿灯”。正如国家政策所强调的,要“以维护数据安全、保护个人信息和商业秘密为前提,以促进数据合规高效流通使用为主线”[40]。当安全与发展这两个轮子一起转动时,数字经济这辆快车才能行稳致远。可以预见,未来随着立法的完善和技术的进步,我们将在更多领域看到数据依法有序流动、创造价值的生动场景——届时,数据的法律规范之网将与市场运行之手紧密配合,共同托举起人工智能和数字经济的美好未来。[40][38]
[1] New Tech Tuesdays: Managing and Storing the World’s Datasphere |
https://www.mouser.com/blog/new-tech-managing-and-storing-datasphere?srsltid=AfmBOopvfqP834atH3pX_7B8rlT2svmFCCsQiMrCuieF4MNnPQ5vmbaI
[2] [3] [38] [53] 汤奇峰:加速释放数据“金资产”的价值丨首席评论
[4] [5] [6] [7] [8] [9] [10] [11] 〖光明日报〗智能时代的三要素——数据、算法和算力-武汉纺织大学新闻文化网
[12] Summarizing Stanford’s AI Index Report 2023 | by Gitika Jha | Medium
https://medium.com/@gitijh/summarizing-stanfords-ai-index-report-2023-part-1-189efa266f4a
[13] 2023 State of AI in 14 Charts | Stanford HAI
[14] [15]
[16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] 数据分类分级怎么管,这份部门规章打了个样_手机新浪网
[30] [39] [40] [41] [46] [47] [48] [49] 中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见_中央有关文件_中国政府网
[31] [32] [33] [34] [35] [36] [37] [45] Measuring the value of data and data flows (EN)
[42] [43] [44] [51] [55] [56] 首个数据资产交易市场在上海数交所启动试运行
[50] [54] 上海数据交易所年度十大建设成果发布 - 东方财富
[52] 1亿元!上海市首单数据产品知识产权质押融资落地 - 上海数据交易所
来源:重庆大律师
