Mozilla 的大型语音数据仓库将塑造机器学习的未来

Common Voice 正朝着成为世界上最大的用于机器学习的人类语音数据仓库的方向发展。

图片来源

Opensource.com

Mozilla 的开源项目 Common Voice 正朝着成为世界上最大的用于机器学习的人类语音数据仓库的方向发展。Common Voice 最近入选了 Black Duck 年度年度最佳开源新秀榜单。

Common Voice 的特别之处在于细节。每种语言的口语都不同——在全世界范围内存在着各种各样的语音模式、口音和语调。一个智能的语音识别引擎——在许多物联网 (IoT) 设备和数字可访问性方面都有应用——只有在从大量样本中学习时，才能识别来自不同人群的语音样本。来自不同地区的人们的录音语音数据库有助于实现这一雄心勃勃的机器学习。

通过 Common Voice，用户只需在项目网站上点击一个按钮即可录制自己的声音。贡献者前端非常简单——只需访问项目网站 https://voice.mozilla.org 并点击 “Speak up, contribute here!” （说出来，在此贡献！）选项。这将带您进入 “Speak”（说话）页面，您可以在该页面阅读三个连续的句子，进行审核（如果需要，可以重新录制），然后保存。保存的录音然后进入语音库。

语音库目前的大小为 12GB，其中包含自 2017 年 6 月该项目启动以来从 112 个国家/地区收集的超过 500 小时的英语语音数据。虽然目前只有英语可用，但今年有扩展到多种语言的范围。

该项目旨在收集超过 10,000 小时的 CC0 许可的免费和开放语音数据，这些数据可以有效地用于训练基于内容的行业的机器学习模型——尤其是物联网和其他依赖语音的应用程序和组织。该平台目前用于训练 Mozilla 的百度 DeepSpeech 架构的 TensorFlow 实现和 Kaldi，一种开源语音识别工具包。

Common Voice 项目的团队负责人 Michael Henretty 说：“Common Voice 只是使语音技术对于全球任何人来说更加开放和可访问的第一步。”他希望“通过收集和自由分享这些数据，我们可以授权新一代的创造者、创新者、企业家、研究人员，甚至业余爱好者，为他们想要的任何人、在他们想要的任何地方创造惊人的语音体验”。“例如，” Henretty 继续说道，“如果有人想为只会说乌尔都语的盲人创建一个辅助语音应用程序，我们希望提供数据使之成为可能。我们相信语音界面将很快无处不在，并且随着越来越多的互联网连接设备出现在家中，确保没有人被落下非常重要。”

Mozilla 正在通过其 Web of Things Gateway、Common Voice 和语音识别引擎 DeepSpeech 探索物联网。

Common Voice 欢迎贡献——任何人都可以访问 Speak 页面，并通过阅读屏幕上显示的句子来贡献。所有贡献都将转到 Data 页面，任何人都可以随时下载以供自己使用。此页面还链接到许多其他类似的开放数据集。此外，该项目的代码库中提供了大量资源，供开发人员用于语音识别。

Subhashish Panigrahi

Somewhere in Mumbai in a moving local train.

Subhashish Panigrahi (@subhapa) 是 OpenSpeaks 的创始人，这是一个屡获殊荣的项目，旨在帮助增加开放资源以数字化记录边缘化语言。他与人共同创立了 O Foundation (OFDN)，这是一个非营利组织，致力于解决人、文化和技术交汇处的问题，并以开放性为核心。

更多关于我

评论已关闭。

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。