摘要:如今在社交媒体上我们够能看到一位视力障碍博士讲述自己是如何使用电脑学习,正是语音合成技术的革新,让原本不可能的事情成真。不仅是无障碍服务领域,这项技术的进步在诸多方面普及大众,并与其他技术融合共同促进的社会的发展。
如今在社交媒体上我们够能看到一位视力障碍博士讲述自己是如何使用电脑学习,正是语音合成技术的革新,让原本不可能的事情成真。不仅是无障碍服务领域,这项技术的进步在诸多方面普及大众,并与其他技术融合共同促进的社会的发展。
接上篇文章谈论到深度学习技术的兴起极大地推动了智能语音交互技术中的语音识别的发展,本篇文章就来简单介绍同样受益于深度学习技术的语音合成。
语音合成又称文语转换(Text to Speech),顾名思义是指将计算机处理后的文字信息转换为自然流畅的语音输出,使用户能够听到计算机 “说话”。
简要描述语音合成,首先需要在语言处理时模拟人对自然语言的理解过程,对要合成的语音文本进行分析。举个例子,文本中涉及“CCTV” ,则需要根据其代表的含义“中国中央电视台”来正确发音。
接下来将要为合成语音规划出音段的特征,如音高、音长和音强等,或表示疑问、表惊叹、表愤怒等,使合成的语音能够正确表达语意,听起来更加自然,称之为韵律处理。最后经过声学处理整合语言处理和韵律处理的结果进一步合成语音。
语音合成技术的发展为视力障碍人士或有读写困难的人群提供了极大地便利,在日常生活和学习教育等方面都给予了强力的支持,降低了信息获取门槛,促进信息平等,增强社会融入感,进一步建设了无障碍领域的服务体系。同时,在医疗康复方面,已有如OpenAI 开发的 Voice Engine已可提供因肿瘤或神经原因导致的语言障碍患者提供辅助恢复声音的服务。
教育方面典型的应用如外语口语的学习,提供多语言学习环境,帮助学生进行口语练习和发音纠正,满足不同年龄段和不同需求的学生学习使用。
在文化娱乐方面,语音合成技术为本就庞大的有声读物市场注入了新的活力。如为早高峰地铁上为原本漫长无趣的通勤时间创造了价值,无论是新闻播报还是文学小说,被赋予智慧的“主播”们都能与真人主播一较高下。
日常的交通出行导航指示、电商语音导购、银行的语音客服等皆是语音合成等多项技术共同促进的结果。本文仅提到语音合成技术在各个领域中的一些典型应用,生活中真正地认识科技、应用科技皆是润物细无声。
科技浪潮中,技术的发展创造新的产业模式、就业机会和生活方式,互联网的广泛应用和智能移动设备的普及,使得一项新技术能快速打破地域限制惠及大众,推动社会进步。期待更多技术变革,期待科技新世界。
来源:大辰资讯