搜索
当前所在位置: 主页 > 区块链 >

tp官网|IIT-Madras 的 AI4Bharat 推出 IndicVoices,提供 7,300 小时的语音数据集

发布时间:2024-03-07 07:12 作者:tp官网 点击: 【 字体:

IIT-Madras 的 AI4Bharat 推出 IndicVoices,提供 7,300 小时的语音数据集

概括

该数据集由 MeitY 的 Bhashini 计划资助,名为 IndicVoices,涵盖 22 种印度语言和 16,237 名说话者的 7,348 小时音频

IndicVoices表示,计划近期捕获全国400多个地区近17000小时的语音数据

IndicVoices旨在建立该国第一个自动语音识别模型,涵盖宪法第八表中列出的所有22种语言

AI4Bharat 是印度理工学院马德拉斯分校的一个研究实验室,于周三(3 月 6 日)推出了一个名为 IndicVoices 的综合开源语音数据集。

该数据集由电子和信息技术部 (MeitY) Bhashini 计划和其他非营利组织资助,涵盖 22 种印度语言和 16,237 名说话者的 7,348 小时音频。

在总共 7,348 小时的音频中,大部分 (74%) 是即兴的,其余的是阅读 (9%) 和对话音频。 Bharat4AI 还表示,该倡议已经记录了 1,639 小时。

IndicVoices在其网站博客中表示,计划在不久的将来从全国400多个地区捕获近17,000小时的语音数据。

“这是朝着收集丰富的印度语言中的自发语音数据迈出的一步,同时尊重巨大的语言、文化和人口多样性 至此,我们发布了7,348小时的语音数据 让我们突破印度语语音技术的界限” AI4Bharat 在 X 上说道。

该项目声称雇佣了超过 1,893 名人员,包括语言专家、当地动员者、协调员、质量控制专家、转录员、语言主管等。

借此,IndicVoices 旨在建立该国第一个自动语音识别 (ASR) 模型,该模型涵盖印度宪法第八附表中列出的所有 22 种语言。 ASR 模型采用人工智能 (AI) 或机器学习 (ML) 将人类语音转换为可读文本。

虽然大多数 ASR 模型主要接受英语训练,但该计划可以使此类模型的训练能够转录印度语言。 经过培训后,它就可以部署到各个方面,包括治理交付和确保政府网站以公众选择的语言提供给公众。

推动 IndicVoices 是该中心旨在刺激该国人工智能主导创新的更大计划的一部分。 一个典型的例子是 Bhashini,这是一种人工智能主导的语言翻译系统,印度总理纳伦德拉·莫迪 (Narendra Modi) 最近使用该系统将他的演讲实时翻译成泰米尔语。

据报道,国家支持的 Bhashini项目已向 AI4Bharat 捐赠 5-600 万美元,用于其人工智能模型的数据收集。 此外,据报道,Bhashini 还资助了 70 多个研究机构,包括 IIT Bombay、IISc Bengaluru 和 IIT Mandi

虽然 Bhashini 最终的目标是利用这些数据集建立一个国家公共语言数字平台,为印度公民提供服务,但开源音频存储库也可供公众用于人工智能产品的研究和开发。

阅读全文
返回顶部