摘要:5月16日,天津市人民政府办公厅发布《天津市促进人工智能创新发展行动方案(2025-2027年)》,该方案在重点任务中提出,要聚焦行业应用,推出一批用于开放训练、标准测试的高质量数据集和语料库,推动构建AI合成数据集。
5月16日,天津市人民政府办公厅发布《天津市促进人工智能创新发展行动方案(2025-2027年)》,该方案在重点任务中提出,要聚焦行业应用,推出一批用于开放训练、标准测试的高质量数据集和语料库,推动构建AI合成数据集。
在次日举办的2025数据安全发展大会上,中国电子信息产业发展研究院发布了《2025高质量数据集研究报告》,报告指出,2024年,我国开发或应用人工智能的企业数量同比增长36%,高质量数据集数量同比增长27.4%,有力支撑人工智能训练和应用。然而,报告同时警示,我国仍然面临数据存量小产量低等问题。
数据已成为驱动人工智能技术突破与产业变革的核心动力,但伴随AI产业爆发式增长,数据供给瓶颈日益凸显——如何突破“数据荒”困局成为行业核心挑战。在此背景下,“合成数据”被推至台前,可这一人为制造的“数据替代品”,真能成为破局良方吗?
解决AI面临的“粮食危机”
2024年年底,美国人工智能巨头OpenAI公司联合创始人兼前首席科学家伊利亚·苏茨克维尔在神经信息处理系统(NeurIPS)大会公开警告“AI的训练数据如同化石燃料一样面临着耗尽的危机”。
根据中国信息通信研究院《人工智能发展报告(2024年)》,有研究预测,到2026年大型语言模型的训练就将耗尽互联网上的可用文本数据,未来需要借助合成数据解决大模型的数据瓶颈。
“当前数据合成主要存在三种方式。”星尘数据CEO章磊告诉中青报·中青网记者,第一种是基于模拟引擎或三维建模,通过构建虚拟仿真环境,批量生成带有标注的图像或传感器数据。第二种是基于生成式AI,直接依据已有的真实数据特征或者文本描述,生成全新的图像、文本、语音等内容。第三种是基于混合增强,将已有的真实数据与算法生成的内容进行拼接、混合等处理,进而形成新的样本。
“这种技术创新带来的成本优势令人瞩目。以自动驾驶为例,传统采集数据成本可能上千万元甚至上亿元。”章磊指出,而在模拟环境中,几乎可以“无限”地产生多样化数据,且无须出门“跑测试”,大幅降低成本。“以我们内部的某自动驾驶场景模拟为例,构建好仿真场景后,批量生成10万张相关图像,可能只需数小时或数天。如果用真实数据,往往需要花费数周到数月的时间。”
同时,合成数据也可以很好地满足隐私保护与合规条件。据章磊介绍,对于医疗、金融等高敏感行业,因涉及患者隐私或客户数据安全,往往难以直接获取大规模真实数据。而合成数据不会包含真实患者的个人信息,但可具备真实病症特征,用于模型预训练或补充数据集。
中国信息通信研究院《人工智能发展报告(2024年)》援引研究机构Gartner公司预测,2024年AI及分析项目使用的数据中,约60%是合成数据。到2030年,AI模型使用的绝大部分数据将是由AI生成的合成数据。
“饮鸩止渴”与“事倍功半”的质疑
“合成数据可靠吗?”北京航空航天大学软件学院教授石琳告诉中青报·中青网记者,合成数据虽然有多种生成方式,但一般是有偏差的,确实可能会放大AI模型的偏差。大多数合成数据是由现有的模型生成的,比如用GPT生成对话、生成图像。“这些模型本身可能就已经带着一些偏差或者幻觉,如果我们再用它们生成的数据去训练新的模型,确实很容易会不断复制之前的错误。”
章磊也提出了数据使用时的风险。他表示,如果合成数据的分布或标签本身带有偏见,模型就会被局限在这个不平衡的数据分布里,导致偏见进一步强化。
为规避这种“以讹传讹”的风险,国家互联网信息办公室、工业和信息化部、公安部、国家广播电视总局近日联合发布《人工智能生成合成内容标识办法》,明确服务提供者应当按照《互联网信息服务深度合成管理规定》第十六条的规定,在生成合成内容的文件元数据中添加隐式标识,隐式标识包含生成合成内容属性信息、服务提供者名称或者编码、内容编号等制作要素信息。
但合成数据并不必然会造成更严重的AI幻觉。石琳指出:“如果我们在使用前加入人工审核、过滤,或者在目标任务上做一些精调、对齐,那合成数据反而能帮我们补齐长尾数据、覆盖那些真实数据采集不到的场景。”
上海人工智能研究院院长、全球工业人工智能卓越中心总干事宋海涛对于合成数据也持有审慎和包容的态度,他告诉中青报·中青网记者,实际操作中,优先选择权威、可信的数据源和引入结构化知识库,可以强化模型对真实信息的依赖。“另外,在训练中也可以尝试通过故意加入错误信息并明确标记,来帮助模型识别和避免幻觉。”
据悉,近日谷歌相关团队已验证了这一“错题集”思路,使得模型数学推理性能提升8倍,逻辑能力显著增强。
“高质量的数据才能训练出更可靠的模型”
“标注与数据管理仍是模型训练前必须的一环,尤其在合成数据领域,还需要专业人员来设计模拟场景、监督合成质量、对生成结果进行检验和再标注。”在章磊看来,新市场也意味着新机遇,未来的数据服务不仅仅是标注(人类反馈),还可能包含数据筛选、清洗、治理、版本管理、安全合规管理等,甚至帮助客户搭建端到端的私有化数据平台。从就业规模和市场规模看,数据标注行业会依旧保持增长,同时也会催生更多对于既懂技术又懂业务的复合型人才的需求。
2月19日,国家数据局在北京召开高质量数据集建设工作启动会。今年的政府工作报告指出,2025年政府将加快完善数据基础制度,深化数据资源开发利用,促进和规范数据跨境流动。
“在AI治理上我们首先要注重数据安全和隐私保护,同时要对合成数据的内容进行审查,避免偏见、歧视、谣言,确保AI发展符合伦理原则。”石琳认为,只有高质量的数据才能训练出更可靠的模型。
中国电子信息产业发展研究院院长张立在其《畅通数据汇聚、供给、利用堵点凝力推进数据集高质量建设》一文中也指出,未来应制定合成数据使用标准,平衡好合成数据与原始数据应用的“度”,助力共同发挥最佳作用。
“合成数据作为人工智能发展的重要数据资源,其作用和价值不容忽视。因此,在合成数据的应用上,我们既要看到其在丰富数据资源、促进算法优化方面的积极作用,也要审慎评估潜在风险,确保技术应用的正确方向。”宋海涛说。
来源:中青报客户端