一个用于录制音频的简单命令行工具

开源语音录制工具使创建独特的语音词典和翻译变得轻而易举。
358 位读者喜欢这篇文章。
A simple command-line tool for recording audio

Internet Archive Book Images。由 Opensource.com 修改。CC BY-SA 4.0 许可

机器学习和自然语言处理正在通过赋予设备人类的声音来改变我们与设备的关系。视力障碍人士尤其受益于这些技术,但像我的母语 Odia 语这样的语言使用者在很大程度上被大多数语音库所抛弃。

当泰米尔语维基人 T. Shrinivasan 启动 Voice-recorder-for-tawictionary 时,他可能没有意识到他的开源工具对像我这样的用户有多么有用。我当时正在寻找一个简单的工具,可以让我在短时间内录制大量单词,以便这些录音可以用于 Odia 维基词典,它是维基百科的姊妹项目,也是一个奥迪亚语的免费词典,其中包含奥迪亚语和其他语言单词的翻译。

Shrini 的工具是一次奇妙的邂逅。我在 GitHub 上 Fork 了这个工具,并将其命名为 Kathabhidhana——在 Odia 语中意为语音词典——并对代码进行了一些更改以适应我自己的设置。当我开始遇到新问题并 记录 解决方法时,这个项目不断发展壮大。Shrini 非常乐于助人,修复了一些小错误,并添加了诸如在保存音频录音之前预览音频录音等功能。

这个工具有什么作用?

Kathabhidhana 是一个简单的命令行工具,可以在 Linux 或 MacOS 终端上运行。

Recording process using Kathabhidhana's command line tool

使用 Kathabhidhana 命令行工具的录制过程。

在开始使用它之前,您需要 下载 整个工具,解压缩,并在文本编辑器中打开 文件 以添加您要录制的单词列表。然后它使用您计算机的麦克风(计算机的麦克风或外部麦克风),一次显示一个单词,并提供四秒钟(默认;您可以在代码中更改此设置)来录制它。录制完成后,它以 .WAV 文件格式保存一个临时音频文件。然后您可以选择预览录制的音频,然后保存或重新录制它。如果您对录制感到满意,您只需按“Y”键即可保存并移动到下一个单词。它会自动以 .WAV 和 .ogg 格式(一种开放格式,受到包括 Wikimedia Commons 在内的许多开源项目的支持)保存文件。

目前已根据 CC BY-SA 4.0 许可(一种开放许可,允许任何人使用、共享、创建衍生作品甚至用于商业目的)上传了超过 1,700 个音频文件。Kathabhidhana 骄傲地使用 GNU 通用公共许可证 (GPL) 版本 3 构建,所有文档和音频录音均采用 CC BY-SA 4.0 许可。

维基人 Prateek Pattanaik 致力于创建一个 工作流程,该工作流程使用一些工具并以 .ogg 格式创建音频录音;它可以在 项目文档页面 上下载。

虽然该工具没有任何复杂的代码或任何 GUI,但它的简洁性正是使其如此有前景的原因之一。实际上,在开放标准中,像我的母语这样的许多语言的单词都没有发音。

缺乏开放许可的语音库阻碍了开发人员为视力障碍人士和其他人创建 文本到语音或语音到文本引擎。我的祖国印度有超过 1500 万视力障碍人士——是全世界最多的。虽然有一些像 NonVisual Desktop Access 这样的开源屏幕阅读器使用语音合成器而不是真人声音,但长时间听机器人声音并不舒服。此外,机器学习和自然语言处理不仅可以帮助有辅助功能需求的人,还可以彻底改变我们与设备交互的方式。像 Siri、Google Assistant 和 Cortana 这样的专有个人助理如此受欢迎的原因是因为使用了真人语音录音。随着更多 开源语音控制解决方案 的出现,想象一下您母语的开放许可语音库可以做什么。

更多资源

  • LinguaLibre(请参阅 源代码)是由传统批量录音软件 Shtooka Recorder 和 SWAC Recorder 的制造商创建的 Web 工具。它目前处于开发和测试阶段,仅提供法语界面,但最终将提供多种界面语言。
  • Pronuncify(Linux 的命令行工具)和 Pronuncify.net(Windows 的基于 GUI 的工具)专为维基词典设计,有助于批量录制单词
Somewhere in Mumbai in a moving local train.
Subhashish Panigrahi (@subhapa) 是 OpenSpeaks 的创始人,这是一个屡获殊荣的项目,旨在帮助发展开放资源,以数字化记录边缘化语言。他共同创立了 O Foundation (OFDN),这是一个非营利组织,致力于解决以开放性为核心的人、文化和技术交汇处的问题。

评论已关闭。

Creative Commons License本作品根据 Creative Commons 署名-相同方式共享 4.0 国际许可协议获得许可。
© . All rights reserved.