助力打造人工智能产业“数据粮仓” 这个平台已完成一期功能开发!

B站影视 欧美电影 2025-03-18 18:16 1

摘要:当前,人工智能处在快速发展的关键时期,Deepseek大模型在各行各业引发的浪潮,正在加速重塑经济社会发展模式。数据作为人工智能发展的三大核心要素之一,是人工智能模型训练的基础要素,也是人工智能模型应用的核心资源。

2024年4月1日,全国数据工作会议首次提出“探索建设数据标注基地”。5月24日,成都被纳入全国首批数据标注试点基地。

3月18日,位于四川成都新津经济开发区的成都市国家数据标注基地牧山园区正式开园,将围绕“数据标注+”产业链,打造数据产业集群。

将数据标注产业纳入人工智能产业规划布局,积极推动数据标注产业生态构建、能力提升和场景应用,成都做出了哪些探索?对此,记者采访了成都数据集团。

成都市数据标注公共服务平台

已完成一期功能开发

当前,人工智能处在快速发展的关键时期,Deepseek大模型在各行各业引发的浪潮,正在加速重塑经济社会发展模式。数据作为人工智能发展的三大核心要素之一,是人工智能模型训练的基础要素,也是人工智能模型应用的核心资源。

成都产业集团下属数据集团有关负责人解释道,在人工智能产业链条中,大多数据为非结构化数据,AI公司通过数据标注获得结构化数据,以此“喂养”算法进行AI训练,最终生成的模型数据可用于各种场景,从而激发数据的AI价值。

“在市发展改革委(市数据局)等部门的指导支持下,我们全力打造成都市数据标注公共服务平台——蓉数·智能数据标注生成管理平台,目前已完成一期功能开发,正持续推进二期优化。”该负责人表示。

数据标注到底是做什么的?简单来说,就是给文本、语音、图片、视频等各种各样的数据“打标签”,数据标注员将一般数据变成AI可识别的数据,对AI的训练和优化至关重要。

中国工程院院士邬贺铨曾表示:“智能驾驶中需要让汽车自动识别马路,但如果只是将视频单纯地传给计算机,计算机无法识别,需要人工在视频中将道路框出,再交由计算机,计算机多次接受此类信息后,才能逐渐学会在视频和照片中识别出道路。”

智能标注相比过往劳动密集型的人工标注,数据标注员不用再一整天盯着电脑重复大量繁琐的“打标签”工作。智能数据标注通过创新的标注技术和方法,能够从更多渠道、以更高效的方式获取和处理数据,扩充数据的规模和种类,大幅提升数据标注效率,从而有效改善高质量数据供给不足的现状,为构建高质量数据集提供坚实的数据基础。

据悉,蓉数·智能数据标注生成管理平台一期着眼于标注基础通用工具建设,涵盖标注、训练、推理、评测等多个环节,覆盖智能化标注、多模态检索、数据合成、图像识别、视频分析、自然语言处理、语音标注等功能,满足不同行业对于数据标注及后续处理需求,可兼容不同数据标注企业的标注工具和模型算法。

预计今年5月底

完成平台二期功能建设

记者了解到,截至目前,成都数据集团以真实标注业务为驱动,已为新津区成都市国家数据标注基地牧山园区的标注企业、电信、联通、语言桥、微壹科技、智宸云逸、汇众天智、向己科技、数聚工坊、成都瀚宇、成都蓉光速、成都蜀道云等公司开通平台账号,构建数据集超过1T,数据标注任务60余个。

多个试用企业表示,该平台整体通用性较强,具备较高的行业普适性。无论是计算机视觉领域,如图像识别、视频分析等,还是自然语言处理领域,如文本分类、情感分析等,亦或是语音识别等领域,该平台都能够适用兼容,支持三方工具接入,可满足不同行业对于数据标注及后续处理的需求,为各行业的AI应用开发提供了坚实的生态基础。

“下一步,我们将持续推动平台在金牛、彭州等基地的产业园区试用,并以市场需求驱动平台能力提升,预计在今年5月底完成蓉数·智能数据标注生成管理平台二期功能建设,开发供需撮合平台,集成DeepSeek大模型,接入第三方垂类行业标注工具,为各行业的AI应用开发提供坚实的生态基础。”成都数据集团有关负责人透露。

“实际上,成都数据集团不仅开展了智能数据标注平台的建设和运营,还将高质量数据集作为高价值数据资产纳入到‘蓉数公园’运营体系的路径探索,形成从数据‘撮合-加工-流通’全链条服务能力,服务人工智能产业链上下游各类型企业发展。”该负责人表示。

成都日报锦观新闻 记者 李艳玲 供图 受访企业 责任编辑 何齐铁 编辑 王淇

来源:锦观新闻

相关推荐