目前大约有 7000 种语言正在使用,平均每两周就有一种语言消失。联合国教科文组织表示, 一半 的世界语言可能会在一个世纪内消失。在我的祖国印度,过去 50 年里已经消失了 220 种语言,并且 197 种语言 濒临灭绝。
开放科学 通过使个人和组织能够协作和交流知识来改进彼此的工作,从而推动科学研究的发展。其中一个可以利用这种帮助的领域是世界各地的本土语言。
语言优势
我小时候在印度奥里萨邦的一个小镇长大,那里至少 30% 的人口说 桑塔利语,但包括我的家人在内的其余 70% 的人从未尝试学习这种语言。大多数人说 奥里亚语。我们不必学习桑塔利语,因为学校和更大的职业市场都说奥里亚语。
语言优势是存在的,这并没有什么不妥,但我们需要确保我们也保护古老的语言,这样我们就不会失去那些语言固有的故事和文化碎片。我们该怎么做呢?对于桑塔利语,我们没有做好准备,因此谷歌花了将近 15 年的时间才发布第一个符合 Unicode 标准(全球通用编码标准)的 字体。然后,我领导了一个 项目,为桑塔利语构建第二个符合 Unicode 标准且获得 开放字体许可证 (OFL) 授权的字体。(由印度字体设计师 Pooja Saxena 设计,输入工具由 Jnanaranjan Sahoo 和 Nasim Ali 开发。)
语言消亡的原因有很多。一些原因是:
- 在多元文化和多语言的社会中,官方和/或主要语言具有政府资助的优势。例如,它们被用于学校教育和科学研究。
- 少数民族语言通常由 土著居民 或生活贫困的人使用。
- 缺乏数字工具来帮助社会和文化延续和分享他们的本土少数民族语言。随着在线讲故事变得越来越普遍,对数字工具和其他标准的需求变得越来越重要。
开源方式如何拯救这些语言
- 我们需要一张世界语言地图,并标明保护每种语言的相关挑战。
- 我们需要协作工具和技术,以便与濒危语言社区密切合作。
- 我们需要开放教育资源,用于编写手册和其他材料,以培训人们如何进行语言文档记录。
- 我们需要记录关于现在(例如,当前事件的新闻报道和其他社会经济事件)和过去(民间文学和文化现象)的开放多媒体内容,并进行注释以扩大语言的范围。
- 我们需要数字工具来构建语言应用程序(例如,机器学习和自然语言处理工具,如文本转语音,可用于放大多媒体内容并帮助构建数字辅助工具,如屏幕阅读器)。
已经有人在做这方面的工作,而且还有更多工作要做。目前正在开展开创性的语言保护倡议,以数字形式保护本土语言。一些值得注意的倡议包括:
- 濒危语言活态语言研究所
- 开放语言档案社区 (OLAC)
- TVMalintzi,一个面向纳瓦特尔语的 YouTube 电视台
- 关于该主题的研究和新闻报道,例如 Matt Hansen 的 美国濒危语言的未来
- 全球一体化项目
- Wikitongues,帮助社区记录本土语言的视频叙事
- 国家人文基金会 & 美洲原住民
- Openwords,一个开源语言学习应用程序
- 数字语言多样性项目 (DLDP),用于构建语言保护的 OER
- Treasure Language Storytelling 和语言学家 Steven Bird 博士 的一组其他语言保护项目
- StoryCorps,用于录制故事讲述
考虑到语言灭绝的速度如此之快,有必要不断进行干预。我个人启动了一个名为 OpenSpeaks 的项目,旨在构建 OER 并帮助公民档案员创建多媒体语言文档。我希望为更广泛的受众策划内容,并使用这些内容来构建数字辅助功能和其他工具,以帮助本土语言使用者访问知识并为公共知识库做出贡献。
5 条评论