使用开放工具更好地支持印度语言的 6 种方法

390 位读者喜欢这篇文章。
open source button on keyboard

Opensource.com

印度是一个人口众多的国家,构成了 Google 消费者的庞大基础。因此,近年来,Google 扩大了对其各种产品对世界语言的支持,这真是一大福音。这尤其帮助印度人民增加了对互联网的使用和参与。

一方面,Google Summer of Code 帮助学生尝试和构建增强基于语言的软件的原型。另一种方式是通过 Google 翻译,这是一个基于 Web 和应用程序的平台,提供从一种语言到另一种语言的机器翻译。它主要由志愿者贡献维护和服务。然而,Google 还可以通过支持世界语言,特别是说南亚语言的人们,以更多方式支持更大的包容性。

本文是维基媒体贡献者 表达 的一些想法的集合。

1. 更新 Google 搜索

Google 的印度 主页 目前提供更改界面和以少数几种印度语言进行搜索的选项,但印度 宪法第八附表 中包含的多达 13 种印度语言却缺失了。

2. 以开放许可协议授权 Google 翻译

如果 Google 翻译在自由许可下可用,更多人可以帮助改进它。志愿者和 许多组织 已根据开放许可协议提供自己的资源,因此 Google 将其源代码在自由许可下开放供他人使用似乎是公平的。

3. 使用 Wikidata 用于 Google 翻译

奥里亚语 是一个广泛使用的印度语言的例子,但 Google 翻译不支持它。原因可能是 Google 平台 上供翻译人员贡献单词和短语的翻译字符串数量较少。改进许多英语单词和其他语言的翻译的一种方法是使用自由知识平台(如 Wikidata)上的现有翻译。

Wikidata 是维基百科的姊妹项目,也是一个自由知识库,目前包含超过 23,906,929 个条目(目前),使用多种语言。这些条目是结构化的并且相互关联,因此这将是一个很好的来源。例如,Wikidata 上关于 人工智能 的条目不仅包含母语中 AI 的常用词,而且还连接到与 AI 相关的各种其他条目。

注意:Google 翻译现在通过 Google 机器神经翻译 进行了改进,因此预计错误将减少 80%,西班牙语-英语翻译的得分为 5.0 分(满分 6 分),而人工翻译的得分约为 5.1 分。

4. 使用 Wiktionary 用于 Google 翻译

Google 翻译目前为某些语言的 Web 和移动设备 提供发音 ——让我们扩展一下。印度语言社区目前正在向 Wiktionary(维基媒体项目和一个免费的在线多语言词典)添加单词的含义及其发音。

5. 在 Google 翻译上设置一个通用论坛

如果允许外部贡献,论坛将允许他们讨论并就语言标准和语法达成共识。

6. 使用 Wikisource 改进光学字符识别

光学字符识别 (OCR) 是一种用于 Google Drive 以支持脚本的工具。有些人使用 OCR 来 数字化 自由许可(公有领域CC-BYCC-BY-SA 许可)的图书在 Wikisource 上,Wikisource 作为一个免费图书馆,用于数字化和保存图书。数字化之后,会对这些图书进行校对,以确保生成的文本正确。此过程的输出可供 Google 用来改进其记录和 OCR 工具,该工具对于印度语言的旧印刷文本 效果不佳

Somewhere in Mumbai in a moving local train.
Subhashish Panigrahi (@subhapa) 是 OpenSpeaks 的创始人,这是一个屡获殊荣的项目,旨在帮助发展开放资源,以数字化记录边缘化语言。他共同创立了 O Foundation (OFDN),这是一个非营利组织,致力于解决人、文化和技术交汇处的问题,并以开放性为核心。

评论已关闭。

Creative Commons License本作品根据 Creative Commons Attribution-Share Alike 4.0 International License 获得许可。
© . All rights reserved.