摘要:2021 年,随着以大模 型为代表的生成式人工智能技术席卷全球,对人类的生产和生活都带 来了革命性的变化,人工智能的发展从以模型为中心转变为了以数据 为中心。
全文共 15160个字,建议阅读20 分钟
2021 年,随着以大模 型为代表的生成式人工智能技术席卷全球,对人类的生产和生活都带 来了革命性的变化,人工智能的发展从以模型为中心转变为了以数据 为中心。
以数据为中心的人工智能理论认为,好的人工智能需要高质 量、大规模和多样性的数据。
但在实践过程中,数据科学家们往往会 遇到数据安全与隐私泄露、内容输出偏见与歧视以及数据“高量低质” 的问题。如果放任这些问题不加管制,将会阻碍人工智能技术的进一 步发展,甚至会危害个人、企业甚至国家的安全。
一、 人工智能数据治理概念界定
(一) 数据治理的发展
1. 数据治理的发展
数据治理的概念起源于企业管理领域,关于数据治理的定义研究 众多,但由于业界权威研究机构、研究学者以及国内外标准组织研 究视角不同,尚未形成较为统一的认知。
国际数据治理研究所(DGI)提出数据治理的定义为“一个根据 既定模型针对信息相关过程的决策权和职责分配体系”。
梅宏院士在《数据治理之论》一书中提出数据治理的核心内容包 括以释放数据价值为目标、以数据资产地位确立为基础、以数据管理 体制为核心、以数据共享开放利用为重点、以数据安全与隐私保护为 底线。
国际数据管理协会(DAMA)提出的数据治理概念为“在管理数 据资产过程中行使权力和管控活动,包括计划、监控和实施。
此外,在国际标准中,最早出现的数据治理(data governance)术 语定义源自 ISO/TR 14872:2019 Health informatics — Identification of medicinal products — Core principles for maintenance of identifiers and terms,将其定义为“以管理信息的质量、一致性、可用性、安全性 和可用性为重点的过程”,并强调该过程与数据所有权和管理的概念 密切。
从上述定义的内容来看主要对信息质量的管理,而后有国际标准从 IT 治理、数据资产管理等视角定义数据治理,逐渐凸显数据治理应具有统筹协调、权责分配、资源调度等核心能力,涉及数据质量、 数据安全、数据合规等关键治理内容。
在国家标准中,最早出现的数据治理术语定义源自 GB/T 35295-2017 《信息技术 大数据 术语》,将其定义为“对数据进行 处置、格式化和规范化的过程。
从定义内容来看主要是从数据管 理视角来理解数据治理,而后有国家标准从数据管理权利、管控活动 等视角定义数据治理,逐渐凸显数据治理具有过程性、集合性以及统 筹与协调管控的特征。
结合通用场景下数据治理定义的特征来看,数据治理的核心治理 内容主要围绕数据质量、数据安全、数据合规等内容展开,强调要围 绕治理内容进行统筹协调、权责分配、资源调度等。
2. 数据治理的三个阶段
第一阶段,20 世纪 80 年代,随着数据库技术的发展,企业开始 意识到数据的重要性。但当时数据管理主要依靠数据库管理系统 (DBMS),直到 1988 年由麻省理工学院的两位教授启动了全面数 据质量管理计划(TDQM),可以认为是数据治理最初的雏形。
第二阶段,伴随着数据仓库的建设,主数据管理与商务智能平台的实施,国内也逐步开始接受并利用数据治理的概念进行推广实践。
第三阶段,21 世纪 20 年代,以大模型为代表的生成式模型成为 推动人工智能发展的重要驱动力。大模型的兴起对数据治理提出了新 的挑战和需求。
3. 大模型时代数据治理的难题
随着人工智能技术的飞速发展,大模型已成为推动 AI 应用创新的 重要驱动力。这些模型依赖于海量的数据、强大的算力以及复杂的算 法参数来支撑其庞大的智能体系。在这一过程中,数据可谓是大模型 的“灵魂”,塑造了其独特的“个性”。
大模型的智能程度与“个性”表现,促使人类社会生产力迈上新 的台阶,同时也带来了更大的挑战与危险。
1) 数据“高量低质”
数据是人工智能技术的基石,是大模型训练和推断的原材料已成 为共识。然而,数据的数量和质量并不总是成正比。在来源上,模型 往往依赖于从互联网、社交媒体和公开数据库中采集的数据进行训练, 这些数据的来源和质量无法得到有效控制。在管理上,我们面对多模 态、非结构化数据缺乏理论与技术的支撑来客观评价数据质量的高低。
这些问题需要数据治理来解决,但传统的数据治理理论与实践更多的适配于面向 BI 时代的结构化数据,在人工智能所需要的非结构 化、半结构化、多模态数据上较为空白。为了应对这些挑战,开发出 更负责任、更可控的人工智能应用,面向人工智能的数据治理(DG4AI, Data Governance for Artificial Intelligence)概念应运而生,它旨在通 过创新的数据管理策略和技术,解决 AI 发展中的痛点问题。
2) 安全与隐私泄露频发
随着大模型对数据的依赖性日益增强,数据安全和隐私保护已成为核心问题。在大模型的全链路研发、管理和应用过程中,其各个阶 段都存在着数据安全与隐私的问题和风险,包括但不限于数据的过度 采集、样本的偏差、数据的投毒等情况,存在危害个人、企业甚至社 会的安全与利益的巨大风险。
3) 偏见与歧视随处可见
在科技飞速发展的背景下,人工智能伦理和道德的关注程度及应对措施尚未完全跟上技术的步伐。自然语言处理技术的滥用案例日益 增多。其中包括压制不同意见、侵犯隐私与匿名性等。随着人工智能 技术驱动的应用逐步走向产业化,潜在的道德伦理问题成为备受关注 的焦点。
这些伦理问题可能源于系统意外产生,也可能是恶意行为者蓄意 开发。常见的负面后果包括因人口统计偏见而导致的不公平问题、面 向不同用户群体的服务性能不平等、对话者需求的错误识别,以及有 害内容与刻板印象的传播等。此外,许多应用只注重信息内容,对文本作者及其信息的社会意义缺乏足够的意识与关注。
DG4AI 的提出,是对现有数据治理体系的重要补充。它强调了数 据治理在 AI 研发全生命周期中的重要性,并指出了实现高质量 AI 应用的关键路径。
这一概念的实践,需要跨学科的合作、政策的支持 以及技术的创新,以确保 AI 技术的健康发展,并最大化其对人类社 会的积极影响。
(二) 面向人工智能的数据治理的定义
对于面向人工智能的数据治理定义建立于对人工智能和数据治理的共同理解之上,因此在这里我们先对几个关键概念进行明确:
人工智能: 人工智能(AI,Artificial Intelligence)是一个与认知 科学/心理学、哲学、语言学和数学等学科进行了知识融合的计算机 科学,当前由于对于智能的定义存在困难,在学界并未有一个统一的 定义,但是从商业的角度来看,AI 意味着使计算机能够执行各种高 级功能(包括查看、理解和翻译口语和书面语言、分析数据、提出建 议等能力),达到帮助替代或超越人类的工作的能力。
数据治理:根据 IBM、标准要求、数据治理协会等研究(见附录 二)综合来看,数据治理主要是从组织层面对数据进行管理。其目的 在于确保数据的质量安全性。可指代为企业数据价值化开展的一系列 具体性工作,也可指代一系列数据管理活动的集合。
由此,我们可以认为面向人工智能的数据治理(DG4AI,Data Governance for Artificial Intelligence)是指在人工智能应用中管理和控 制数据的过程与实践,用以确保数据的质量、可靠性、安全性与合规性,数据能够被准确地用于训练和部署 AI 模型,同时保护数据的隐 私和安全。
(三) 面向人工智能开展数据治理的主要阶段与对象
从组织层面开展数据治理工作方面来看,面向人工智能开展数据治理的工作,主要包含以下四个阶段:
1. 顶层设计阶段:
治理目标:确立数据治理的总体框架和战略目标,确保数 据治理与组织的整体战略相匹配。
工作重点:根据组织的业务现状、信息化现状、数据现状 和 AI 现状,设定组织中各机构和部门的职责、权力的利 益,定义符合组织战略目标的整体数据治理目标和可行的 行动路径。
2. 数据治理组织保障体系搭建阶段:
治理目标: 确保面向 AI 的数据治理得到必要的支持和资 源,包括人力、算力、算法、数据、技术和管理等支持。
工作重点: 分析领导层、管理层、执行层等利益相关方的 需求,建立健全面向 AI 数据治理的相关管理制度和标准, 并基于数据治理所需的专项能力和业务价值目标构建支 持面向 AI 的数据治理体系。
3. 数据治理工程建设阶段
治理目标: 基于数据战略目标,结合 AI 数据治理的特点,制定并执行数据治理实施计划,确保数据治理能够按照既定目标和流程进行。
工作重点: 包括数据收集、数据预处理/清洗、特征工程、数据标注、数据划分、数据增强、模型训练、模型验证与测试、模型推理等实施步骤。
4. 数据治理运营优化与 AI 应用融合阶段
治理目标: 提升 AI 应用的规模化落地效果,实现数据治 理与 AI 应用的良性互动。进一步,形成数据治理与 AI 应 用相互促进的闭环,实现数据价值的最大化。
工作重点: 通过数据治理提升 AI 模型的拟合效果,同时 利用 AI 技术优化数据治理流程,形成良性闭环系统。
从面向人工智能场景下所需的数据来看,大致可分为原始的多模态数据集、训练数据集、验证数据集、测试数据集和推理数据集。
从面向人工智能场景的工程建设阶段来看,可分为数据收集、数 据预处理/清洗、特征工程、数据标注、数据划分、数据增强、模型训练、模型验证与测试、模型推理等九个阶段。
对于人工智能训练和推理的阶段与数据治理对应关系如下:
1) 数据收集阶段:
此阶段治理对象包括 : 结构化数据、非结构化数 据、半结构化数据、空间地理数据、时间序列数据等多种模态数 据集。数据来源的选择和收集策略直接影响后续的数据质量。数 据的有效性和代表性在此阶段就已开始形成。此阶段我们需要保 障相关来源的数据量和多样性。
2) 数据预处理/清洗阶段:
此阶段数据治理对象是数据收集阶段所采集的多模态数据。此阶段对收集到的数据进行初步处理,去除无 关信息,修正错误数据,处理缺失值、异常值、重复值等问题, 确保数据质量。数据必须具备高度的质量和准确性,保证训练模 型时使用的样本数据能够反映真实世界的情况。
3) 特征工程阶段:
此阶段治理对象包括:原始数据集,中间数据和 特征变量、标签数据集等。此阶段将原始数据转化为适合机器学 习算法使用的特征表示,包括特征提取、特征选择、特征构造等。 对于非结构化数据,可能需要进行特征提取,如文本分词、图像 特征提取等。特征的选择、构造与转换过程决定了模型能否有效捕捉到数据中的有用信息,特征的质量直接影响模型的表现力和泛化能力。
4) 数据标注阶段:
此阶段治理对象主要是标注数据集。对于监督学习任务,需要人工或半自动方式对数据进行标注。高质量的标注数据对于模型的学习至关重要。准确、一致且全面的标注能显著提升模型训练效果。
5) 数据划分阶段:
此阶段治理对象主要是训练集、验证集和测试集 三类。本阶段将数据集划分为训练集、验证集和测试集,训练集 用于训练模型。数据划分阶段的质量治理重点在于保障数据分布 和数据平衡,合理地将数据划分为训练集、验证集和测试集,确 保每个集合都能代表总体数据分布,有助于避免过拟合或欠拟合。
6) 数据增强阶段:
此阶段治理对象主要是合成数据。为了提高模型 的泛化能力和应对不平衡数据问题,合成数据是通过模拟或生成 技术生成的人工数据,用于模型训练、隐私保护等目的。
虽然对 合成数据的质量治理不是直接改善原始数据质量,但能间接提高 模型对各种情况的适应性和泛化能力。合成数据质量治理包括对 合成数据的生成过程、使用限制等方面进行规范和管理。
7) 模型训练阶段:
此阶段治理对象主要是训练数据。使用高质量的 数据训练模型,会得到更准确、稳定的结果。
训练过程中,如果 数据质量不佳,模型容易学得有偏差或者过拟合。
训练数据的数 据质量治理重点保障数据的完整性、准确性、一致性、多样性和 代表性。
8) 模型验证与测试阶段:
此阶段治理对象主要是验证数据和测试数 据,包括对抗性样本、稀有事件或者小样本数据等。模型的性能 验证和测试依赖于独立的高质量测试集,只有当测试数据具有良 好的代表性时,才能准确评估模型在新样本上的真实性能。在模 型验证与测试阶段,对数据的要求和活动更加聚焦于检验模型在 未知数据上的表现和鲁棒性,确保模型不仅在训练集上表现出色, 而且在新的、未见过的数据上也能维持良好的性能。
9) 模型推理阶段:
此阶段治理对象主要是推理数据集。在模型推理 阶段,除了确保模型自身的性能以外,还要关注用于推理的实时 数据的质量,通过一系列的数据处理活动来保证模型在实际应用 中的效果和稳定性。推理数据集质量治理的关注点主要包括推理 数据集的数据格式兼容性、数据质量监控、数据有效性验证、实 时数据更新与维护、在线特征提取与转换等。
(四) 面向人工智能的数据治理价值
通过在面向人工智能场景下对数据集与数据工程流程进行系统化、 标准化的治理:
一是能够提高人工智能模型的准确性和可靠性。
二是能够缩短人工智能模型的开发周期,降低开发与维护成本。
三是能够提升整个 AI 系统的安全水平。此外,这项工作还能够完善对未来全 域数据治理理论版图的构建。
(五) 面向人工智能的数据治理原则
在开展面向人工智能的数据治理工作时,建议遵循以下原则,从 而更好的提升人工智能应用效果、保护个人隐私与社会安全、降低成 本、消除歧视与偏见。
标准化原则: 人工智能数据治理应具有灵活性、可操作性和实用性,能够被实际应用到数据治理中,通过制定和使用统一的标准、 规范和流程并不断迭代完善。这有助于降低数据管理成本,提高 数据质量和效率。透明性原则: 人工智能数据治理应该是透明的,运作方式和数据 处理过程应该是可解释和可理解的,有助于建立信任和可靠性, 并确保合规性。合规性原则: 人工智能数据治理应该符合相关法律法规和行业标 准的要求,如隐私法、知识产权法等。安全性原则: 人工智能数据治理应注重数据的安全性,采取适当的安全措施,如加密、访问控制等,以保护敏感数据的机密性和完整性。负责任原则: 人工智能数据治理应该遵循道德和伦理标准,保证对数据和个人隐私的尊重,避免歧视和不公平的结果。公正性原则: 人工智能数据治理应该确保公正和平等的对待所有用户和利益相关方,不偏袒特定群体或个人。可审计原则:人工智能数据治理应建立审计机制,对数据的收集、存储、处理和使用等过程进行监控和记录,以便及时发现和解决 潜在问题。上述原则为人工智能数据治理提供了指导方针,确保 AI 系统的可靠性和公正性,保护个人隐私和数据安全,促进组织的数字化转型和 发展。
二、 面向人工智能数据治理的重点工作
数据治理理论已有多年的发展,相关治理逐步趋于完善和成熟。
然而,针对人工智能领域的数据治理,由于治理对象与评价方式的特 殊性,各方实践仍处于初步探索阶段。
本章节我们将从数据质量治理、 数据安全与隐私治理、数据伦理治理三方面展开探讨,为人工智能场 景下的数据治理工作提供指导。
这三大重点工作与传统的数据治理理 论过程类似(如 PDCA 循环、安全分级分类等),但鉴于人工智能应 用场景的特殊性,其在技术和实施细节上有所差异。
随着技术与产业实践的不断演进,数据治理的重点工作将持续补充和完善,以更好地适应人
工智能领域日新月异的需求和挑战。
(一) 数据质量治理
推进面向人工智能的数据质量治理是保障人工智能应用高质量、 准确、持续可用的重要基
础,这要求企业找准人工智能应用建设过程 中的数据质量治理需求,把握人工智能数据质
量治理与传统数据质量治理的差异,精准识别人工智能数据质量治理的范围和对象,从而
帮助企业科学设计人工智能数据质量治理的机制、方法和步骤,建设面 向人工智能的全面
的数据质量治理技术能力,以良好的数据质量治理 实践预防和杜绝数据质量问题,提高人
工智能应用的性能和效果。
1. 治理方法
面向人工智能的数据质量治理是确保数据质量对人工智能模型效 果的重要保障。数据质量
管理贯穿于人工智能研发、管理和应用的整 个生命周期,需要建立一套完善的数据质量管
理体系,制定相应的数 据质量管理制度和流程,并明确各环节的责任和要求。
同时,还需要建立有效的数据质量评估和监控机制,以确保数据 质量符合要求,为人工智
能模型的训练、调优提供高质量、高可信度 的数据资源,从而提升模型表现效果。
1) 需求分析与质量目标设定
在面向人工智能的数据治理过程中,数据质量治理始于需求分析 与质量目标设定阶段。明
确人工智能应用对于数据质量和数量的具体 需求,设立针对性的数据质量基准和目标。通
过这一系列的数据需求 分析与质量目标设定工作,可以为后续的数据清洗、预处理、特征
工 程、标注和增强等数据质量管理活动提供清晰的方向和依据,确保整 个数据治理体系围绕既定目标有序展开,最终提升人工智能模型的性 能和稳定性。
2) 制定数据质量管理体系
在面向人工智能的数据治理过程中,制定数据质量标准和规范是 极为关键的一环,其主要
任务是建立一个全面、严谨的数据质量评价 指标体系。通过这样的数据质量标准和规范体
系,能够对数据治理过 程中的数据进行全方位、多层次的质量评估,指导数据清洗、预处
理、 标注等活动的开展,进而保障人工智能应用所用数据的质量,推动模 型训练和应用效果的提升。
3) 数据源评估及采集
从数据的源头控制好数据质量,让数据“规范化输入、标准化输 出”是解决人工智能数据质量问题的关键所在。同时不仅关注数据来 源的可靠性,而且考虑数据是否涵盖足够的维度和场景,确保数据来 源、质量和多样性。
4) 数据预处理
数据标注与数据增强是数据质量管理活动中不可或缺的部分,它 们能够在有限的数据资源基础上,通过创新技术和策略,生成大量高 质量的训练数据,有力支撑人工智能模型的高效训练和准确预测。
a. 数据清洗: 此阶段聚焦于消除数据中的错误、不完整、不一致 和重复等问题。具体措施包括:
缺失值处理:通过填充(如使用平均值、中位数、众数等)、 插值或其他方法处理缺失值。
异常值检测与处理: 识别并移除或者替换那些明显偏离正常范围的数据点,防止其对模型训练产生不良影响。
数据一致性校验: 对同一实体在不同数据源中的记录进行比对和整合,保证数据的一致性。
去重处理: 识别并移除非唯一标识的重复数据记录,避免因重复样本导致的模型训练偏差。
b. 数据标注: 在某些 AI 任务中,尤其是监督学习场景下,模型需要依赖带有标签的高质量数据进行训练。高质量的数据标注能有效 提高模型理解和学习数据的能力,为后续模型训练奠定基础。
c. 数据增强: 即使经过精心标注,实际可用的数据量也可能受限, 这可能会导致模型过拟合等问题。数据增强技术旨在通过一系列规则 或算法人为地扩增训练数据,如在图像识别任务中采用翻转、旋转、 裁剪、色彩变换等方式生成新的训练样本;在文本数据上,可通过同 义词替换、句式变换等方式生成不同的表达形式。数据增强不仅可以 有效扩大训练样本空间,还可以提高模型的泛化能力和鲁棒性,降低 过拟合的风险。
5) 特征工程
对已预处理过后的数据,可能仍然存在不满足人工智能需求,其 目的是通过对已清洗和预处理过的数据进行深层次的分析和转换,提 取、构造出最具价值的特征,以满足后续人工智能模型构建的需求。 通过特征工程的实施,可以极大提升数据对于人工智能模型的解释能 力和预测能力,进而增强模型的泛化能力和实用性。
6) 数据偏见检测与矫正
在数据治理的过程中,深入挖掘并矫正数据偏见是构建负责任且 公平的人工智能系统的基石,有助于避免 AI 应用在社会生活中可能 造成的歧视和不公。
a. 数据偏见检测: 数据偏见检测主要通过统计分析、可视化手 段以及特定的偏见评估框架来发现潜在的不公平现象。例如,在分类 任务中检查不同群体的误分类率是否存在显著差异,在回归任务中审 视因变量预测值是否受无关属性(如性别、种族)的影响过大等。
b. 偏见矫正:在发现数据存在偏见后,数据质量管理活动会采 取一系列措施来矫正这些偏见,从而提升模型决策的公平性。
7) 常态化数据质量监控
在面向人工智能的数据治理过程中,数据质量管理活动的一个核 心环节是常态化数据质量监控,该环节贯穿于整个 AI 项目生命周期, 既包括模型训练阶段,也涵盖模型推理阶段。常态化的数据质量监控 不仅是数据治理的重要组成部分,也是确保人工智能应用成功运行、 产出高质量成果的必要条件。无论是训练还是推理阶段,都需要对数 据质量进行严格的把关,以应对不断变化的数据环境,持续优化数据 质量和模型效果。
a. 模型训练阶段的数据质量监控: 在模型训练前,系统应具备实时数据质量监测功能,对输入的训练数据持续进行完整性、一致性、精确性、及时性等方面的监控。一旦发现数据异常或质量问题,如数据分布突然变化、出现大量缺失值、新增数据格式不合规等情况,应 及时触发告警机制,以便快速定位问题源头并采取相应措施进行修复 或清洗。只有确保数据质量达到预期标准,才能将其用于模型训练和 微调,以期得到精准、可靠且具有泛化能力的 AI 模型。
b. 模型推理阶段的数据质量监控: 即使模型进入推理阶段,数 据质量监控工作依然不能松懈。对于模型接收的实时或批量推理请求 所携带的数据,也需要执行严格的数据质量检查,确保数据格式正确、 内容合法、业务逻辑合理,避免无效数据、恶意攻击数据或不符合模 型输入规范的数据对模型运行造成干扰或损害。通过实时数据质量监 控,能够迅速发现并拦截有问题的数据输入,保障模型推理的稳定性 和准确性。
8) 持续改进
在面向人工智能的数据治理过程中,数据质量管理活动的持续改 进是一个动态迭代、持续优化的过程。不断地总结经验教训,优化数 据质量管理的方法和流程,实现数据质量的螺旋式上升,从而为人工 智能系统提供更为精准、可靠的数据支撑,推动 AI 技术的健康发展。
该过程可能包括: 定期复盘过去的数据质量管理活动,总结成效、发 现问题,为改进提供方向; 提炼经验教训,制度化有效策略并规避同 类问题; 紧跟 AI 技术发展,优化数据采集、预处理、清洗、标注等 环节,提升管理方法和流程的科学性与高效性; 密切关注并适时引入新的数据处理与质量管理工具,以应对复杂挑战,提高数据质量,促进 AI 模型训练与应用效果。
2. 治理技术
在面向人工智能的数据治理过程中,数据质量治理涵盖了从数据 准备到模型训练、再到模型部署应用的全过程,每个阶段都有相应的 数据治理技术来确保数据质量。借助一系列先进的治理技术,实现了 从数据获取到模型应用全程的数据质量问题管理和控制,为 AI 模型 的成功构建和稳定运行提供了强有力的支持。
数据清洗: 数据清洗是数据预处理中的一项基本任务,旨在去除 数据中的噪声、异常值和重复信息。随着机器学习和人工智能的发展, 数据清洗技术也在不断进步。现在,通过使用自动化工具和机器学习 算法,可以更高效地识别和纠正数据中的错误和不一致性,提高数据 的质量和可靠性。
自动化与智能标注:传统的数据标注方法通常需要大量的人工劳 动,成本高昂且耗时。为了解决这个问题,自动化标注技术应运而生。 自动化标注使用机器学习算法和计算机视觉技术自动识别和标注数 据,大大提高了标注效率并降低了成本。对于某些复杂的数据类型, 完全自动化的标注可能无法达到高精度。在这种情况下,交互式标注 和可编辑的标注成为一种有效的解决方案。这些方法允许用户对自动 标注的结果进行手动编辑和调整,以提高标注的准确性和精度。
特征工程: 特征工程是将原始数据转换为特征向量,供机器学习 算法使用的技术。随着机器学习和人工智能技术的发展,特征工程技术正朝着自动化和智能化方向发展。通过使用机器学习算法和自然语 言处理技术,可以自动识别和转换数据中的特征,提高数据处理的效 率和准确性。
数据增强: 数据增强是通过生成新的训练样本扩展数据集的技术。 在深度学习和计算机视觉领域中,数据增强扮演着重要的角色。通过 使用旋转、翻转、裁剪等技术,可以增加数据的多样性和丰富性,从 而提高模型的泛化能力。
多模态数据处理和分析: 随着多模态数据的普及,数据质量特征 工程技术正朝着多模态数据处理和分析方向发展。多模态数据包括文 本、图像、音频和视频等多种形式,每种形式都有自己的特征和属性。 通过多模态数据处理和分析技术,可以综合利用不同模态的数据,提 高数据分析和预测的准确性和可靠性。
(二) 数据安全与隐私治理
推进面向人工智能的数据安全与隐私治理是保障人工智能被安全,可靠使用的基础。在训练算法模型的过程中,会利用到企业和个人的身份、隐私和交易等数据,通过对人工智能应用全生命周期的数据安全与隐私数据进行治理能够有效的保护个人隐私、防止数据泄露并且避免算法被数据投毒所侵害,研发可以被放心使用的人工智能应用。
1.治理方法
1 ) 建立数据全生命周期安全监督机制
为确保数据全生命周期的安全性,需建立包含数据采集、处理、存储及输出的全面安全保障机制。这涉及确保数据集多样性与公平性实施数据处理与加密措施、制定严格的数据使用规定等。在数据治理中,透明度与知情权的保障至关重要,需明确告知用户数据收集目的,并允许用户自主决定是否共享个人信息,增强隐私控制。遵循数据最小化原则,仅收集必要的个人数据,并定期审查清理,以降低隐私风险,确保数据安全。
2) 制定数据集安全风险分类管理体系
为应对人工智能领域的安全挑战,需构建一个基于应用场景、影响范围和风险的分类分级管理体系。该体系应对高风险领域进行定期的数据安全能力评估,并根据风险级别采取差异化的管理策略,实现精细化管理。
首先,明确隐私数据的定义和范围,对数据进行等级分类,指导数据使用模块对不同安全等级的数据进行模糊化处理,以降低泄露风险。数据安全管理应贯穿整个数据治理生命周期,通过分类分级为信息安全管理提供指导,帮助制定安全策略和保护措施,确保数据治理全面合规。数据分级还涉及对数据破坏后果的预估和公众危害程度的分析,确保各级数据得到适当保护。
其次,建立数据安全管理系统,支持数据分类的增删、搜索和敏感词管理,优化资源分配与共享,增强数据安全意识,引导用户主动保护数据安全。
通过这些措施,可以有效地评估和管理数据安全风险,确保数据的安全性和合规性。
3) 数据加密
应用先进的加密算法对数据进行加密,确保数据在存储和传输过程中的安全。其次,构建全面的安全管理体系,涵盖安全审计和漏洞扫描等环节,以监测和防御潜在风险。技术层面上,实施坚固的加密技术和身份验证机制,防止未授权访问,增强系统的整体安全性。这些措施共同构成了强化数据安全保障的核心,有效抵御数据泄露和网络攻击。
4) 风险评估
为了确保人工智能模型的安全性和可靠性,需要加强模型评估,以判断其对潜在威胁的反应能力和逃避监管的可能性。这包括评估模型是否具有危险行为的倾向,并验证其行为是否与设计预期相符,同时对模型的内部机制进行审查。此外,风险评估是数据治理的持续任务,需要定期执行以识别和防范数据安全和隐私方面的风险。通过这些措施,组织可以制定有效的应对策略,确保数据和隐私得到有效保护,及时应对安全挑战。
5) 教育与培训
安全与隐私是人工智能应用的红线,为组织内部人员提供关于数据安全和隐私的培训,增强人员安全隐私的意识,有助于构建一个全员参与的安全文化。同时,向用户提供关于安全实践和隐私保护的教育,使其更加自觉地保护个人信息,进一步提升整个生态系统的安全性。
6) 监管与合规审计
建立有效的监管机制,监督人工智能系统的运行,以及进行定期的合规审计,确保系统的运行符合相关法规和政策,是保障治理有效性和可持续性的关键步骤。通过这一系列综合的治理方法,可以全面而有效地应对人工智能数据安全与隐私治理的复杂挑战。
2. 治理技术
1) 安全治理技术
异常数据检测: 利用异常样本和良性样本的分布差异或在隐藏空间上的特征差异,检测数据中的异常值。
数据增强: 数据增强对于对抗攻击、后门攻击、投毒攻击来说都是有效防御机制,在丰富数据集多样性的同时,可降低异常数据的有效性。
鲁棒训练: 通过改进训练过程来降低恶意数据的影响,提高大模型面对对抗样本的预测准确率。
数字水印: 水印技术是一种在数据中嵌入隐蔽标记的方法,用于追踪数据来源,增强数据安全性和可溯源性。技术的最新进展在于对抗性水印,它通过复杂算法和模型抵抗包括篡改和定向攻击在内的多种攻击,保护数据完整性和隐私。
安全对抗:安全对抗技术对人工智能数据安全与隐私治理至关重要,安全对抗技术是一种主动的安全策略,通过模拟攻击行为来预先发现和修复系统潜在漏洞。通过提高安全对抗技术的有效性,人工智能系统能够更主动、全面地保护数据安全,确保用户信息不被恶意获取或滥用
加密与脱敏: 加密技术和安全协议是确保数据在传输和存储过程中不被未授权访问、窃听或泄露的关键手段,尤其是在云环境或网络传输中。数据脱敏技术通过变形敏感信息,保护个人隐私,同时保持数据的可用性,降低隐私风险,对 AI数据安全治理起着核心作用。
2) 隐私治理技术
差分隐私: 通过对数据加噪,确保训练集中某一数据不论存在与否,对模型预测结果的影响都有限,从而阻止攻击者根据模型输出推断数据集中的具体数据信息。同态加密:同态加密在明文和密文上进行计算得到的结果相同,因此可以直接在加密后的隐私数据上进行运算,保障数据隐私。但同态加密时间复杂度高,面对海量数据效率较低。安全多方计算:安全多方计算允许各参与方输入对其他方保密的情况下,根据输入共同计算一个函数,确保了整个系统中个体敏感数据的 隐私性。
匿名化: 匿名化技术的最新进展集中在不可逆加密方法和差分隐私技术上。不可逆加密方法通过使用无法逆向解密的算法,确保个体身份信息在处理后无法还原,有效保护数据主体隐私。差分隐私技术则通过在数据发布或处理时加入噪声,防止重新识别攻击,保护个体身份信息不被泄露。
概念擦除: 概念擦除技术通过修改数据中的敏感信息来降低隐私泄露的风险。最新的概念擦除方法不仅关注隐私保护,还考虑在信息擦除的同时保持数据的分析可用性。
(三) 数据伦理治理
在科技高速发展的背景下,对人工智能中伦理道德的关注程度及应对方法仍未完全跟上技术的发展步伐。
生成式语言模型作为人工智能的最新范式,其通过深度学习技术和大规模数据集生成文本内容,其算法“平等”的保留了训练数据中的偏见、黄色、恐怖和暴力等不当内容,进而在应用中造成不可逆的严重后果。
针对这些问题,设计及加强对人工智能所需数据集的管控,成为至关重要的发展方向。
1. 治理方法
1) 制定数据伦理政策
在人工智能数据处理过程中,数据伦理政策的制定是首要且不可或缺的一步。这些政策为整个数据处理流程提供了道德和法律的框架,确保了人工智能技术的公平、透明和负责任的使用。
为了确保数据伦理政策的有效实施,需要建立相应的监督机制和违规处理措施。例如,可以设立独立的数据伦理审查委员会,负责监督数据处理活动是否符合伦理准则和政策要求,并对违规行为进行调查和处理
2) 提升透明度和可解释性
透明度和可解释性是人工智能数据伦理的重要方面,它们有助于增强公众对人工智能技术的信任和理解。透明度要求数据处理过程公开、透明,让数据持有者能够了解数据被如何使用、与谁共享以及用于何种目的。
为了实现透明度,我们可以采取向数据持有者提供详细的数据处理说明、建立数据主体访问和更正其数据的机制、公开算法原理和模型结构等多种方式。
可解释性则强调人工智能模型应能够为其决策或预测提供合理的解释。
这对于决策性人工智能模型尤为重要,用户需要理解算法是如何得出特定结论的,以便对结果进行评估,提升对模型的信任程度。
为了提高模型的可解释性,我们可以采用简洁明了的模型结构、提供易于理解的模型输出解释以及使用可视化工具展示模型决策过程等。
3) 规范数据收集和标注
在人工智能数据处理过程中,数据收集和标注是两个关键环节,它们直接影响到模型的质量和性能。
在数据收集阶段,我们需要确保采集的数据具有代表性、多样性和均衡性,以避免模型在特定群体上的偏见和歧视。此外,我们还需要关注数据来源的合法性和道德性。
在数据标注阶段,我们需要注意避免歧视性的标签和评价。标注人员应接受数据标准相关培训,确保标注人员能够客观、公正地进行标注工作。同时还需要建立标注质量评估和审核机制,对标注结果进行定期检查和纠正,确保数据的准确性和一致性。
4) 开展风险评估和缓解措施
在人工智能数据处理过程中,我们需要对可能导致不公正或歧视性结果的风险进行评估,并采取相应的缓解措施。风险评估可以通过对模型性能进行定量分析、对数据处理流程进行审查以及对相关法规和社会期望进行解读等方式来实现。
针对评估结果中暴露出的风险点,我们可以采取多种缓解措施。
例如,对于模型偏见问题,我们可以通过增加多样性样本、调整模型参数或使用公平性增强算法来降低偏见程度;对于数据泄露风险,我们可以加强数据加密、访问控制和安全审计等措施来保护数据安全;对于算法决策不透明问题,我们可以采用可解释性强的模型结构或提供模型输出解释来提高透明度。
5)定期审查和更新
随着法规和社会期望的不断变化以及人工智能技术的快速发展我们需要定期审查和更新数据伦理准则和政策以确保其与时代保持一致。审查过程应包括对现有准则和政策的全面评估对相关法规和社会期望的解读以及对新技术进展的跟踪和分析等,
在审查过程中,如果发现现有准则和政策存在不足或过时之处应及时进行更新和完善。更新后的准则和政策应重新发布并告知所有相关方以确保其得到有效执行。同时还需要建立持续监督机制来确保更新后的准则和政策得到长期有效的执行和维护
2. 治理技术
偏差检测和纠正: 识别算法中存在的偏见,并通过调整算法参数或重新训练来消除偏见。
反歧视性算法设计: 确保算法在处理数据时不会因种族、性别宗教等因素产生歧视。
责任与可追溯性技术: 确保 AI系统的决策过程有清晰的记录,出现问题时可以追溯到责任方。
三、面向人工智能的数据治理步骤
当前产业对于人工智能的工程建设工作包括数据收集、数据预处理/清洗、特征工程、数据标注、数据划分、数据增强、模型训练,模型验证与测试、模型推理等九个阶段。
过程上,总体由业务方提出需求后,数据工程师、算法工程师数据科学家等角色进行分头开发。
其总体上缺乏一套科学的方法论将各个团队、人员、角色进行串联,形成“流水线”式的作业。
从而往往导致团队间的协作困难、工作效率不高、工作成本不低、责任分工不清、应用效果不及预期等问题。
通过利用 DataOps"所强调的加强团队间协作沟通、要求数据流程具有可重复性和可追溯性、重视自动化和持续集成、关注数据集的监控和持续改进、强调数据流程的监控与反馈等特性。
能够有效改善这些问题,实现数据流程的自动化、质量管理的持续改进以及合规性伦理性和隐私保护的强化,从而提高人工智能项目的效率和效果以下我们将创新性的提出利用 DataOps 理念来赋能人工智能模型研发、治理和运营的一体化流程方法,为产业提供一种实践思路,并在今后的报告中不断打磨。
(一) 明确应用目标与需求
确定应用目标与效果: 首先,与相关方共同明确人工智能应用的目标和预期效果。这可能涉及解决的业务问题、改善的业务流程或实现的业务目标。
明确应用场景: 确定人工智能应用的具体场景和应用范围。这包括确定应用的环境、用户和操作方式。
澄清数据需求: 与算法方、需求方和数据方共同澄清所需的数据类型、数据数量和数据质量标准。这可能涉及确定需要的数据来源数据格式、数据标签等。
评估数据获取难度: 评估当前已有数据与所需数据的可获取性和使用难度。这包括考虑数据获取的法律、道德和技术限制,以及数据采集和标注的成本和时间。
(二) 设计数据集治理要求与规范
制定数据标注流程: 制定清晰的数据标注流程,包括数据标注的 步骤、标准和质量控制措施。这可能涉及确定标注人员的资质要求标注工具的选择和标注结果的审核流程。明确数据质量标准:明确数据质量的衡量标准和评估方法,包括数据准确性、完整性、一致性和可靠性等方面。这可以通过制定数据质量指标和监控机制来实现。考虑合规和隐私要求: 确保数据采集、标注和使用过程符合法律道德和行业规范的要求,特别是涉及个人隐私和敏感信息的情况下,这可能涉及制定数据保护策略、访问控制机制和数据使用协议。管理规范持续更新: 建立一个持续更新的数据管理规范,确保规范与技术发展和业务需求的变化保持同步。这可能包括定期审查和更新数据管理政策、流程和工具。(三) 开展数据集处理与研发
数据清洗和标注: 进行数据清洗、标注和预处理,以确保数据质量和一致性。这可能涉及识别和处理数据中的噪音、缺失值和异常值,以及为数据添加标签和元数据。特征工程和数据增强: 进行特征工程和数据增强,以提取数据的有效特征并增加数据的多样性。这可以通过使用统计方法、机器学习算法和数据增强技术来实现。沟通与验收: 加强算法方与数据方的沟通,确保数据处理过程中的偏差得到及时纠正。这可能包括定期的数据处理进展报告和算法人员的阶段性验收动作。(四) 进行数据集洞察与交付
数据集持续维护: 对交付的数据集进行持续维护和更新,确保数据集的及时性和适用性。这可能包括定期的数据质量评估、数据集版本管理和数据集权限管控洞察数据集构成与分布:对当前企业内数据集的构成、分布、质量和成本进行洞察,以优化数据集的组织和利用。这可以通过数据集分析和数据集使用情况监控来实现。版本管理与权限管控:建立数据集的版本管理系统和权限管控机制,确保数据集的一致性和可追溯性。这可能包括对数据集的版本记录、变更审批和访问权限控制等。(五) 持续数据集运营与优化
构建监控指标体系: 构建全局的监控指标体系,综合考虑数据集的使用频率、更新频率、质量评价和成本效益等方面。这可以通过建立数据集运营指标和监控仪表板来实现。
持续优化数据集流程: 对整个数据集构建周期的流程进行持续优化,提高数据集的效率和效果。这可能包括对数据处理流程的自动化工作流程的优化和团队协作的改进等方面。
四、 展望
(一) 人工智能数据产业分工更加明确
总体来看,产业中存在大量对数据的重复标注、重复采集、重复加工的现象。这无疑是对时间、资金、资源和人才的铺张浪费。
未来,供给人工智能数据集的产业在采集、加工、交易、消费等环节将更加清晰和成熟,通过市场化的调节机制可以合理分配产业的人才、资金与资源,更高效的推进人工智能应用发展。
(二) 数据治理或成为大模型的胜负手
当前,产业界普遍通过大力发展大模型产品应用来抢占市场份额然而,随着市场集中度的提高(马太效应),只有少数企业可能在这场竞争中胜出。通过有效的数据治理,企业将有可能获得竞争优势。
(三) 服务化
随着 DG4AI 技术、实践和理论的成熟,DG4AI将更加标准化与流程化,进而发展为服务化,能够高效、高质量、安全可控的提供标准的数据产品(数据集、语料库)。
来源:一个数据人的自留地