我如何使用 AI 将“洗手”翻译成 500 种语言

通过使用人工和机器生成的翻译,关键的健康短语可以被翻译成世界各地使用的当地语言。
120 位读者喜欢这篇文章。
Global citizens unite to improve housing with open design and development

Opensource.com

您可能不知道,目前世界上有 7,117 种语言。不是方言,而是活生生的语言!然而,世界上大部分数字媒体仅以几十种语言提供,而像 Google 翻译这样的翻译平台仅支持大约 100 种语言。 这种现实意味着,由于缺乏及时获取信息的途径,全球数十亿人被边缘化。 当前的冠状病毒 (COVID-19) 大流行已使这一点变得痛苦地清晰,并且突显了需要立即、快速地将与健康相关的短语(如“洗手”或“保持距离”)翻译成长尾语言。

为此,我应用了最先进的 AI 技术,构建了接近 544 种语言(我的 GPU 仍在运行)的“洗手”短语。 多语言无监督和监督嵌入 (MUSE) 方法用于训练 544 种语言中的每一种语言与英语之间的跨语言词嵌入。 这些嵌入然后允许从现有文档中提取类似于目标短语的短语。

我与 SIL International 的同事合作完成了这项工作,他们收集了更多人工翻译的该短语。 这些人工翻译和我的一些机器翻译的组合可以在 Ethnologue 指南页面 上搜索(机器生成的短语用小机器人图标表示),并且将添加更多翻译,因为它们是生成/收集的。

利用现有语料库

SIL International 已在 2000 多种语言中完成了语言学工作,目前正在管理 1600 多个语言项目。 因此,当我着手解决这个特定问题时,我知道我们可能已经多次将“洗手”和/或类似短语翻译成数百种语言,而这种猜测得到了回报。 我能够从我们的档案中快速收集 900 多种语言的文档(主要是已完成的外壳书模板、教育材料和圣经)。 这些文档中的每一个都有一个英文平行版本,其中必然包含“洗手”和/或类似的短语,如“洗脸”。 此外,这些文档中的每一个都是高质量的,并且是与当地语言社区合作翻译和检查的。

这是一个相当大的多语言数据集。 然而,有两个问题需要克服。 首先,对于大多数语言,此数据包括数千个样本,这与用于训练机器翻译模型的数百万个样本形成对比。 其次,即使文档包含目标语言的短语“洗手”,我们也不知道该短语在周围文本中的确切位置。

我们当然可以利用 低资源语言机器翻译的最新技巧,但这需要一些时间来调整自动化方法,以便在每种语言对中快速调整翻译模型。 此外,我们定位的许多语言都没有可用于比较评估指标的现有基线,例如 BLEU 分数。 鉴于对冠状病毒大流行的紧迫担忧,我们希望比那更快地采取行动(尽管我们计划将来再回到这个问题)。

我选择尝试通过在现有文档中查找短语本身或短语的组成部分(如“洗你的”或“你的手”)来构建短语“洗手”。 为了找到这些,我使用 Facebook Research 的 多语言无监督和监督嵌入 (MUSE) 为每个 {英语,目标语言} 对训练跨语言嵌入。 MUSE 以单语词嵌入作为输入(我使用 fasttext 来生成这些),并使用对抗方法学习从英语到目标嵌入空间的映射。 此过程的输出是跨语言词嵌入。

Using fasttext along with MUSE to perform cross-language embedding

一旦生成跨语言嵌入,我们就可以在目标语言文档中找到短语组件。 事实证明,短语“洗脸”在文档中以及单独出现的“手”、“洗你的”等实例中被最清晰地使用。 对于每种语言,我在我期望短语出现的区域(基于其在英语平行文本中的用法)中搜索 n-gram。 N-gram 使用跨语言嵌入进行向量化,并使用各种距离度量与英语短语的向量化版本进行比较。 在嵌入空间中“最接近”英语短语的 n-gram 被确定为目标语言匹配项。

最后,将与其英语对应项匹配的组件短语组合起来,以生成目标语言的短语“洗手”。 这种组合再次利用跨语言嵌入来确保组件以适当的方式组合。 例如,如果我们在目标语言中匹配了短语“洗脚”,则对应于“脚”的 n-gram 必须替换为对应于“手”的 n-gram。 这是伯利兹克里奥尔英语的示例

当然,在此匹配过程中做出了一些假设,并且此过程完全有可能不会产生语法正确的预测。 例如,我假设在大多数语言中,“手”和“脚”的词都是一个词符长(词符用空格和标点符号分隔)。 当然并非总是如此。 这可能会产生类似“和洗手你”或类似的糟糕的词语沙拉。 希望我们能够克服其中的一些限制并在未来扩展系统,但是,就目前而言,我们选择用图形来强化这个想法。

我们根据世界卫生组织的手部清洁说明改编成模板 PNG 图像。 然后,我们使用 Bash 和 Go 脚本的组合,将我们翻译和生成的短语渲染到洗手图像中。 这样,正确的洗手理念在文本和图像中都得到了强调(以防我们生成的翻译很尴尬)。

结果

到目前为止,我已经能够训练 544 种语言的跨语言嵌入。 我使用了上述方法来尝试构建所有这些语言的“洗手”。 因为我没有许多语言对的对齐数据,所以我使用了也包含“洗手”组件的单独的保留文档来帮助验证构建短语中的词符。 这让我们对我们公开发布的翻译有了一定的信心(至少它们包含指示洗涤和/或手的信息)。 此外,我将该方法与 Google 翻译也支持和/或有人工翻译的语言对进行了比较。 以下是来自 Ethnologue 的语言统计信息的翻译样本

语言:意大利语 [ita]

地点:意大利

人口:68,000,000

我们的系统:“làvati la mani”

谷歌翻译:“Lavati le mani”

语言:保加利亚语 [bul]

地点:保加利亚

人口:8,000,000

我们的系统:“умий ръцете”

谷歌翻译:“Измий си ръцете”

语言:荷兰语 [nld]

地点:荷兰

人口:24,000,000

我们的系统:“wast uw handen”

谷歌翻译:“Was je handen”

语言:皮金语 [pis]

地点:所罗门群岛

人口:550,000

我们的系统:“wasim han”

谷歌翻译:不支持

语言:提卡尔语 [tik]

地点:喀麦隆

人口:110,000

我们的系统:“ɓɔsi fyàʼ”

谷歌翻译:不支持

语言:瓦法语 [waj]

地点:巴布亚新几内亚

人口:1,300

我们的系统:“yaakuuvaitana nnikiiyauvaa fini”

谷歌翻译:不支持

构建的短语类似于参考翻译,或者似乎是说“洗手”的替代方式。 例如,在保加利亚语中,我预测“умий ръцете”,而 Google 翻译预测“Измий си ръцете”。 但是,如果我使用 Google 翻译反向翻译我的预测,我仍然会得到“洗手”。 在我无法与参考翻译(例如,来自所罗门群岛的皮金语 [pis])或人工注释范围进行比较的地方存在一些不确定性,但我仍然可以验证洗涤词 (wasim) 和手词 (han) 是否在其他必然谈论洗涤或手的参考文档中使用。 大约 15% 的翻译可以使用此方法进行验证,并且我希望随着我收集参考词典来验证更多翻译。

请注意,即使对于意大利语等高资源语言,我也最多使用了大约 7,000 个句子来获得上述翻译。 我也没有依赖语言对之间的对齐句子。 尽管存在这种非常数据稀缺的无监督情景,但我仍然能够为两个系统都支持的语言获得类似于 Google 翻译的短语。 这证明了这种“混合”方法(词嵌入的无监督对齐 + 基于规则的匹配)对于将短语翻译成数据非常少的语言的潜在效用。

请注意——我绝对不是说这是解决有关冠状病毒和其他健康相关问题的信息传播问题的解决方案。 这里仍然有很多东西需要探索和正式评估,我们正在努力。 在许多情况下,这种方法无法帮助构建数百种语言的重要信息材料。 但是,我认为我们都应该尝试开发创造性的解决方案来解决与当前危机相关的问题。 也许这是庞大拼图中的一块。

您可以在 Ethnologue 指南页面 上查看经过验证的翻译和人工翻译的完整列表。 此外,论文形式的对该系统的更详尽描述和分析即将发布。 我们欢迎公众对翻译提供反馈,以帮助微调系统,最重要的是,确保健康信息传播到世界各地边缘化的语言社区。

创建您自己的洗手海报

我们已经开源了 用于渲染复杂脚本和生成洗手海报的代码。 这种方法应该能够处理几乎所有语言和脚本。 您可以将您自己的“洗手”翻译添加到海报中,以帮助传播信息,或为您自己的当地环境量身定制翻译。 务必在社交媒体上使用 #WashYourHands 标签分享您生成的海报。

发展您的 AI 技能

那里有许多令人兴奋的 AI 问题,可以对世界产生巨大的影响。 如果您想使用 AI 解决上述问题,或者如果您认为您的企业可能需要开始利用 AI 来处理其他事情(供应链优化、推荐、客户服务自动化等),请不要错过 AI 课堂 今年的五月培训活动AI 课堂 是一项为期三天的沉浸式虚拟培训活动,面向任何具有至少一些编程经验和数学基础知识的人。 该培训为使用 Python 和 TensorFlow 和 PyTorch 等开源框架进行实际 AI 开发提供了实践基线。 完成课程后,参与者将有信心开始开发和部署他们自己的 AI 解决方案。

本文经许可转载自 https://datadan.io/blog/wash-your-hands

接下来阅读
User profile image.
英特尔的数据科学家和软件工程师。与 sil.org 一起创造有益于社会的 AI。Practical AI 播客的联合主持人。 也被称为 Data Dan。

3 条评论

如果您只是创建一个或一组图形,您也可以与文盲人士沟通。

在加利西亚语中是:“Lava as mans”

知识共享许可协议本作品根据知识共享署名-相同方式共享 4.0 国际许可协议获得许可。
© . All rights reserved.