浦银国际:高质量数据进入建设元年 数据标注未来格局或形成共存模式

B站影视 内地电影 2025-06-24 16:45 1

摘要:浦银国际发布研报称,根据《2025高质量数据集研究报告》,我国数据标注产业产值已突破80亿元,构建335个高质量数据集,标注规模达1.7万亿TB(太字节)。只有将这些数据转换为机器能够识别和学习的结构化数据格式,数据价值才能得到充分发挥,进而推动大模型的持续更

智通财经APP获悉,浦银国际发布研报称,根据《2025高质量数据集研究报告》,我国数据标注产业产值已突破80亿元,构建335个高质量数据集,标注规模达1.7万亿TB(太字节)。只有将这些数据转换为机器能够识别和学习的结构化数据格式,数据价值才能得到充分发挥,进而推动大模型的持续更新迭代。随着自动化标注技术不断进步,AI数据标注的占比或将持续提升,未来将承担更多标准化、规模化的标注任务。而人工标注将更加聚焦于需要深度思考和复杂判断的任务,与自动化标注形成互补。

浦银国际主要观点如下:

高质量数据需求持续提升,政策利好持续释放

随着人工智能技术的快速发展,对高质量数据的需求日益增长。高质量数据集是大模型优化及应用落地的基础,长期来看,高质量的精标数据产品需求强劲,专业化、场景化或将成为行业趋势。此外,政府持续出台利好政策,推动我国智能数据行业的发展,如2024年12 月《关于促进数据产业高质量发展的指导意见》、2025年5 月《数字中国建设 2025年行动方案》等。

数据标注产业日益增长

根据《2025高质量数据集研究报告》,我国数据标注产业产值已突破80亿元,构建335个高质量数据集,标注规模达1.7万亿TB(太字节)。而根据Grand View Research测算,2023年全球数据标注和服务市场规模达140.7亿美元,预计2024-2030年的复合年增长率为20.3%。根据IDC预测,2024年全球产生约160ZB的数据量,其中大部分为非结构化数据。只有将这些数据转换为机器能够识别和学习的结构化数据格式,数据价值才能得到充分发挥,进而推动大模型的持续更新迭代。

数据智能“瓶颈”亟待突破

根据《数据智能研究报告(2025)》,我国数据智能建设主要面临三大瓶颈:首先,缺乏落地实践的方法论,不同行业、模型阶段对数据需求差异大,数据处理环节需针对性适配;其次,技术能力仍存在短板,例如在数据采集、清洗等环节,存在格式兼容、数据质量、特定数据支持等问题;第三,数据流通机制还有待完善,包括基础设施层面机制尚未落地,企业因安全、竞争等考量,数据价值难以释放,定价、授权等不清。

数据标注未来格局或形成共存模式

随着自动化标注技术不断进步,AI数据标注的占比或将持续提升,未来将承担更多标准化、规模化的标注任务。而人工标注将更加聚焦于需要深度思考和复杂判断的任务,与自动化标注形成互补。项目可能会先由AI进行初步标注,然后人工进行审核和修正,结合两者的优势,提高标注质量和效率。

投资风险

行业监管,成本控制,商业模式模糊。

来源:智通财经一点号

相关推荐