加强数字中文建设,全方位释放中文要素价值

B站影视 电影资讯 2025-06-08 04:10 2

摘要:大语言模型技术日新月异,为社会数字化发展注入强劲动力,并塑造未来势能。自然语言处理技术、高质量语言资源、大规模优质语料等已成为这场新技术革命的战略支点和社会发展的基础要素。中文在支撑科技创新、服务数字中国建设和参与世界语言治理格局中,发挥着技术、语言和文化优势

大语言模型技术日新月异,为社会数字化发展注入强劲动力,并塑造未来势能。自然语言处理技术、高质量语言资源、大规模优质语料等已成为这场新技术革命的战略支点和社会发展的基础要素。中文在支撑科技创新、服务数字中国建设和参与世界语言治理格局中,发挥着技术、语言和文化优势。

为贯彻落实数字中国建设和教育强国建设规划部署,教育部、国家语委、中央网信办于2025年1月印发《关于加强数字中文建设,推进语言文字信息化发展的意见》,首次提出“数字中文”概念。《意见》面向2035年明确发展目标、政策措施和工作机制,以实施加强数字中文建设行动全面带动语言文字信息化,聚焦高价值领域全局赋能经济社会发展。

中华思想文化术语库

数字中文概念的提出根植于社会现实

数字中文,一个新术语,乍看起来生疏而新鲜,其实,数字中文的丰富内涵根植于多年来、多方面、深层次的社会现实基础。

人工智能技术创新发展,更加需要中文数字化支撑。在大语言模型技术快速迭代的过程中,数据成为其中的核心竞争力变量,语言文字、语言资源和语言数据至关重要。中文以其语言学意义和历史文化层面的特殊性,有利于创新中国特色大语言模型发展之路,有利于技术赋能中文功能发挥与中文赋能技术创新应用双向促进,并在技术竞争、文化传播和全局赋能中发挥更大作用。

世界语言格局迅速变化,更加需要中文数字化传播。中国是世界上语言资源最丰富的国家之一;中文承载着中华民族数千年的文明智慧,是中国贡献给世界的重要公共文化产品,是世界上使用人数最多的语言,是联合国六种工作语言之一。越来越多的国家和国际事务场景使用中文,中文参与全球治理的价值作用更加凸显。

数字中国建设进程加快,更加需要中文数字化助力。语言文字数字化应用场景不断拓展,语言数据作为新型要素,快速融入生产、分配、流通、消费以及政务管理等各环节,广泛服务社会发展。

全球中文学习平台

语言文字信息化进展,更加需要中文数字化跃升。语言文字信息化发展呈现出多语种资源广泛开发、多方面技术创新应用、多类型主体共同推进、多维度赋能发挥作用的良好局面。今后一个时期,加大国家通用语言文字推广力度,深化中华优秀语言文化传承,增进中国特色语言文明交流互鉴,更加需要中文数字化赋能。

数字中文的概念内涵与应用

基于当前社会现实和未来国内国际多样化需求,我们尝试结合数字技术与中文系统之间的互动关系,初步定义“数字中文”概念,以期为数字中文技术体系、认知体系和治理体系建构提供基本范畴、分析框架和逻辑起点。

AI太炎古汉语大语言模型

从本体性技术上,数字中文是指中文语言系统在数字技术生态中演化形成的复合语言形态,依托字符集标准及多模态语言信息标准在数字化媒介中实现编码、传输、呈现,以及依托语义计算框架形成中文支撑人工智能技术的新型符号系统。

从功能性特征上,数字中文基于技术标准、语用实践与算法架构,作为语言-技术共生体系和智能基础设施,全方位支持中文语言资源功能作用发挥和中文语言数据要素价值释放,体现为国际编码的字符数字化、中文信息处理的算法系统化、人机界面交互驱动的语用重构化、人工智能技术创新的语言智能化、文化传承传播的载体中介化以及服务经济社会发展的赋能全局化。

加强数字中文建设,不仅局限于技术名词和学术术语的讨论,更着眼于以信息化、数字化、智慧化方式全方位释放中文全要素价值的战略选择、制度创新和技术实践。数字中文的时代背景是大语言模型等人工智能技术飞速变革,数字中国建设加快推进,中文在全球治理中的参与度和贡献率快速提升;技术本质是中文信息与图灵测试逻辑的结构性耦合,语言与技术深度融合并“双向促进”;语用基础是推动语言资源转化为语言数据,全方位释放语言文字在经济社会发展中的数据要素价值,是语言文字现代化与国家数字化战略的重要结合点;政策要点是推进中文数字化与数据中文化“两化并进”、创新应用与规范安全、新型中文服务体系构建与语言文字治理体系完善;前沿应用是以数字化方式深度研究语言本体机理,力求突破语言学理论和实践问题;加强国家关键领域语料基础设施“新基建”,有效服务大语言模型等人工智能创新应用“制高点”;战略定位是通过数字化手段提升中文的生命力、传播力和竞争力,使中文在人工智能、大数据、互联网和全球化时代保持生机活力,是推进国家语言文字事业高质量发展、国家语言服务体系高标准构建和国家语言能力高起点增强的重要举措;赋能方式是以语言文字的泛在性与信息技术的泛在性密切结合,聚焦关键领域全局赋能经济社会发展,不断提升中文在全球数字空间和世界现实生活中的使用占比、价值引领和文化贡献。

中华精品字库

数字中文建设的政策体系框架

按照《意见》部署,以实施数字中文建设行动为重点,全方位释放语言文字的数据要素价值、全环节发挥语言文字的资源功能作用、全领域推进语言文字赋能经济社会发展,明确了到2027年和2035年的分段发展目标,形成了加强数字中文建设的政策体系框架。

坚持总体战略导向。坚持需求牵引,回应经济社会新需求。坚持语技融合,实施示范项目,打造引领品牌,在汇聚数据资源、创新应用形态、提升赋能效果等关键环节开辟新空间。坚持资源开发,多渠道分类型系统建设数字化语言资源新体系。坚持多方协同,形成政府、市场、社会联动新机制。坚持全局赋能,聚焦关键领域,塑造数字中文赋能经济社会新格局。

应用关键前沿技术。以支撑人工智能技术创新为先导,创新应用自然语言处理、大语言模型、多模态信息处理、知识图谱、语料加工等前沿技术,重点加强国家关键领域语料基础设施建设,有效服务大语言模型等人工智能创新应用。

建强支撑保障体系。以固本强基为基点,系统建设规范标准、资源服务、人才培养、协同创新、安全治理等保障体系,有效推进教育、科技、人才一体发力,重点支撑语言文字信息技术理论研究水平、产业应用能力和社会服务效能。

殷契文渊

实施全局赋能行动。以赋能高价值领域优先,统筹实施数字中文服务教育发展、助力科技创新、赋能文化传承、推动产业升级、促进社会进步等赋能行动,重点部署引领性计划和先导性项目,提升数字中文赋能经济社会发展的针对性、实效性和全局性。

创新推进落实机制。以实现数字中文政策目标为导向,一体建立统筹规划、共建共享、多方协同、试验带动、品牌引领等机制。重点鼓励一地一策、一校一品制定数字中文建设规划,支持创建试验区示范点,形成数字中文赋能生态。

开展系统化的数字中文相关研究

站在语言与技术融合的新起点,数字中文定义的深化、政策的落实和行动的实施,急需聚焦重大方向、重要领域和重点选题,开展数字中文理论与实践研究。

关键战略研究。包括数字中文建设的时代价值、支持政策和实施路径;新型国家语料库建设的理论、政策和标准;构建中文在全球数字空间占比指数,提升语言文字信息化助力国家语言能力的战略贡献力;推进高价值语言资源转化为高赋能语言数据的有效机制,提升语言文字的科技支撑力;推进语言本体发展以数字化方式走向语言社会服务,提升语言文字的社会吸引力。

前沿基础研究。包括语言数据赋能信息技术创新应用和信息技术赋能语言资源功能发挥的“双向赋能”机理;中文数字化和数据中文化“两化并进”途径;中文支撑人工智能的技术、语言和文化优势;数字中文建设的安全和风险;中文数字化标准与国际技术生态的兼容性;中文结构特征与深度学习技术架构的适配性。

急需应用研究。包括数字中文标准、规范与治理体系建设;青少年大语言模型素养提升;大语言模型技术规范与质量标准;数字中文新产品、新职业、新业态;培植专攻数字中文建设专业化机构,培育促进语言与技术双向赋能的融合性学科,培养复合型语言人才;开设语言科学与技术专业,构建数字中文建设人才供需适配机制。

展望未来,数字中文建设要聚焦国家、市场和社会需求,立足国家语言文字事业发展、国家语言服务体系构建和国家语言能力增强的“一体两翼”大语言格局,服务国家事业发展大局,着力将数字中文概念转化为政策制度、规范标准、计划项目、实际行动和社会效能,更好地助推国家语言服务体系的数字化转变、语言资源大国向语言能力强国的战略性转变以及语言有限赋能向语言赋能全局转变。

《光明日报》(2025年06月08日 05版)

来源:光明网

相关推荐