摘要:总部位于金奈的 AI4Bharat 正从印度主要语言的日常对话到技术文档中,收集十万亿词元的语言数据。AI4Bharat 联合创始人米特什・卡普拉(Mitesh Khapra)表示,这些数据将为下一代人工智能(AI)服务提供支持。
据印度《经济时报》3月8日报道,总部位于金奈的 AI4Bharat 正从印度主要语言的日常对话到技术文档中,收集十万亿词元的语言数据。AI4Bharat 联合创始人米特什・卡普拉(Mitesh Khapra)表示,这些数据将为下一代人工智能(AI)服务提供支持。
词元是人工智能用于理解语言的基本组成部分,通常是单词的一部分,有时也可能是整个单词。
卡普拉周六在班加罗尔举行的 “人与人工智能集会” 上表示:“我们已经有 2 亿个口语单词…… 在四个邦,相关工作已经开展或处于活跃阶段。我们有支持农民、儿童、数字支付和农业的应用案例。在过去三年里,我们几乎走访了全国的每个地区,试图覆盖该国所有 22 种官方语言。”
他还说,AI4Bharat 确保收集不同人口统计学特征、不同职业(蓝领和白领)的语音样本,“一些初创企业、学术机构和深度科技机构正在使用这些数据构建自己的模型,以加速语言技术的应用。”
卡普拉称,数据收集所需的工具都是全新开发的。“我们的数据、模型和脚本都是开源的。使用者可以在此基础上进行构建。”
(编译:晋阳)
链接:
https://telecom.economictimes.indiatimes.com/news/internet/ai4bharat-to-collect-ten-trillion-tokens-of-data-to-power-ai-in-indian-languages/118807364?utm_source=newslisting&utm_medium=latestNews
来源:邮电设计技术