摘要:高质量数据集,简而言之,就是那些具有高价值、高密度且标准化的数据。在人工智能领域,它扮演着至关重要的角色,如同汽车中的汽油,为人工智能大模型提供精准学习的燃料。
(图片来源:摄图网)
(记者 叶菁)高质量数据集,简而言之,就是那些具有高价值、高密度且标准化的数据。在人工智能领域,它扮演着至关重要的角色,如同汽车中的汽油,为人工智能大模型提供精准学习的燃料。
随着AI大模型的持续更新和快速发展,大模型的产品形态形成了从Chatbot到Copilot再到Agent的趋势和方向。数据可谓是成为驱动AI进步的“新石油”。北京公开征集行业高质量数据集需求和建设成果的通知;国务院国资委发布了首批包含10余个行业30项的央企人工智能高质量数据集建设成果。随着大模型技术的迅猛发展,数据集作为人工智能核心三要素之一,在算法趋同、算力普惠的竞争环境中正在构建难以复制的差异化壁垒。
高质量数据是AI应用可靠性的保障
数据集的质量直接影响着人工智能的“智商”,高质量数据是AI应用可靠性的重要保障。政策层面的举措充分体现了高质量数据的重要性。为了推动高质量数据集的建设,国家数据局等17部门已联合印发《数据要素×三年行动计划(2024—2026年)》,鼓励科研机构和龙头企业共同打造行业共性数据资源库。此外,在第八届数字中国建设峰会上,国务院国资委更是发布了首批涵盖多个行业的高质量数据集,如电网调度AI负荷预测数据集、核电SPV设备健康诊断数据集等,为人工智能产业注入了新的活力。
这不仅展示了央企在人工智能领域的积极探索和实践,更体现了高质量数据集对于推动行业发展的关键作用。这些高质量数据集为AI大模型在相关行业的应用提供了坚实的基础,使得AI模型能够更准确地理解和处理复杂的业务场景,从而保障了AI应用在实际生产中的可靠性。
从实际应用来看,在金融行业,高质量的交易数据、风险评估数据等能够帮助AI模型更准确地进行风险预测和投资决策;在医疗行业,高质量的病例数据、影像数据等有助于AI模型辅助医生进行疾病诊断和治疗方案制定。因此,高质量数据是确保AI应用在各个领域可靠运行的核心要素。
高质量数据集建设正处于探索阶段
然而,高质量数据集的建设仍面临诸多挑战。业内人士坦言,不同行业部门对模型场景数据的多样化需求,以及缺乏统一的数据衡量标准,都为数据处理和管理带来了不小的难度。为此,我们需要进一步探索和创新,以克服这些挑战,推动人工智能产业的持续发展。《全国数据资源调查报告(2024年)》预测,2025年全国数据生产总量将突破50ZB。当前,高质量数据集主要面临目标定位模糊化、实施路径碎片化与技术底座薄弱化三重挑战。
目标定位模糊化——许多企业和机构在建设高质量数据集时,缺乏明确的目标和定位。他们不清楚需要采集哪些数据、如何使用这些数据来驱动AI模型的发展。这导致在数据采集过程中出现盲目性,收集了大量无关或低质量的数据,浪费了大量的资源。
实施路径碎片化——高质量数据集建设涉及多个环节,包括数据采集、清洗、标注等。目前,这些环节之间缺乏有效的协同和整合,导致实施路径碎片化。不同环节的标准和方法不一致,使得数据质量难以保证,也增加了数据整合的难度。
技术底座薄弱化——高质量数据集建设需要先进的技术支持,如数据存储、处理和分析技术等。然而,一些企业和机构的技术底座相对薄弱,无法满足大规模、高复杂度数据处理的需求。这限制了高质量数据集的建设和应用。
系统推进高质量数据集建设
国家数据局副局长夏冰强调,数据集的质量和效率提升对于人工智能赋能实体经济的推动作用不容忽视。为了应对高质量数据集建设面临的挑战,需要从多个维度系统推进建设工作。
首先,产业合作是推进高质量数据集建设的重要途径。不同企业和机构在数据资源、技术能力和专业知识等方面存在差异。通过合作,他们可以共享数据资源,整合各方优势,共同打造高质量数据集。企业可以与高校、科研机构合作,利用高校和科研机构的专业知识和技术优势,对数据进行深入分析和挖掘,提高数据的质量和价值。例如,在智能医疗领域,企业可以与高校的医学专业和计算机专业合作。企业提供大量的病例数据和影像数据,高校的医学专家对这些数据进行专业的分析和解读,计算机专业的研究人员则利用先进的数据分析技术对数据进行处理和挖掘。
其次,数据标注是高质量数据集建设的关键环节。数据标注的质量直接影响到AI模型的学习效果。建立专业的数据标注基地,能够提供标准化、规范化的数据标注服务。数据标注基地可以通过开展培训课程和实践项目,提高标注人员的专业水平和标注能力。制定统一的标注标准和流程。
最后,建设数据平台是整合数据资源、提高数据管理效率的重要手段。数据平台可以将各个部门和系统中的数据进行整合和集中存储,采用先进的存储技术和安全机制,保证数据的安全性和可靠性。同时,数据平台还可以提供便捷的数据访问接口。用户可以通过数据平台提供的接口,快速、方便地访问和获取所需的数据。这为AI模型提供了便捷的数据访问途径,使得模型能够及时获取到最新、最准确的数据。
高质量数据集在驱动AI模型突破与创新方面具有不可替代的作用。它是AI模型学习和发展的基础,没有高质量的数据集,AI模型就无法发挥出其应有的潜力。在当前的人工智能发展中,高质量数据集的重要性愈发凸显。随着高质量数据集的不断完善和应用,AI模型将在各个领域实现更大的突破和创新,为人类社会带来更多的福祉。
本文来自【通信信息报社】,仅代表作者观点。全国党媒信息公共平台提供信息发布传播服务。
ID:jrtt
来源:全国党媒信息公共平台