目前大约有7,000 种语言正在使用,平均每两周就有一种语言消失。联合国教科文组织表示,一半的世界语言可能会在一个世纪内消失。而且,在我的祖国印度,过去 50 年里已经消失了 220 种语言,197 种语言濒临灭绝。
开放科学通过使个人和组织能够协作和交流知识来改进彼此的工作,从而推进科学研究。其中一个可以利用这种帮助的领域是世界各地的本土语言。
语言优势
小时候,我在印度奥里萨邦的一个小镇长大,那里至少 30% 的人口说桑塔利语,这种语言是包括我的家人在内的其余 70% 的大多数人从未尝试学习的。大多数人口说奥里亚语。我们不必学习桑塔利语,因为学校和更大的专业市场都说奥里亚语。
语言优势是存在的,这并不是说这不好,而是我们需要确保我们也保护古老的语言,这样我们就不会失去语言中固有的故事和文化片段。我们该怎么做呢?对于桑塔利语,我们没有做好准备,因此谷歌花了将近 15 年的时间才发布第一个符合 Unicode 标准(全球通用编码标准)的字体。然后,我领导了一个项目,为桑塔利语构建第二个符合 Unicode 标准且获得 开放字体许可证 (OFL) 授权的字体。(由印度排版师 Pooja Saxena 设计,输入工具由 Jnanaranjan Sahoo 和 Nasim Ali 开发。)
语言消亡的原因有很多。一些原因是
- 在多元文化和多种语言的社会中,官方语言和/或主要语言具有政府资助的优势。例如,它们被用于学校教育和科学研究。
- 少数民族语言通常由土著居民或生活贫困的人使用。
- 缺乏数字工具来帮助社会和文化延续和分享他们的母语、少数民族语言。随着在线讲故事越来越普遍,对数字工具和其他标准的需求变得越来越重要。
开源方式如何拯救这些语言
- 我们需要一张世界语言地图,并标明保护每种语言的相关挑战。
- 我们需要协作工具和技术,以便与濒危语言社区密切合作。
- 我们需要开放教育资源,用于手册和其他材料,以培训人们如何进行语言记录。
- 我们需要记录关于现在(例如,当前事件的新闻报道和其他社会经济事件)和过去(民间文学和文化现象)的开放多媒体内容,并进行注释,以扩大语言的范围。
- 我们需要数字工具来构建语言应用程序(例如,机器学习和自然语言处理工具,如文本转语音,可以用来放大多媒体内容,并帮助构建数字辅助工具,如屏幕阅读器)。
已经有一些工作在进行中,还有更多的工作要做。开创性的语言保护举措正在进行中,以数字形式保护本土语言。一些值得注意的例子是
- 濒危语言生活语言研究所
- 开放语言档案社区 (OLAC)
- TVMalintzi,一个基于 YouTube 的纳瓦特尔语电视台
- 关于该主题的研究和新闻报道,例如 Matt Hansen 撰写的 美国濒危语言的未来
- 全球一体化项目
- Wikitongues,帮助社区记录本土语言的视频叙事
- 国家人文基金会 & 美洲原住民
- Openwords,一个开源语言学习应用程序
- 数字语言多样性项目 (DLDP),用于构建语言保护的开放教育资源
- Treasure Language Storytelling 以及语言学家 Steven Bird 博士 的一组其他语言保护项目
- StoryCorps,用于录制讲故事
考虑到语言灭绝的速度如此之快,需要不断干预。我个人启动了一个名为 OpenSpeaks 的项目,以构建开放教育资源,并帮助公民档案员创建多媒体语言文档。我希望为更广泛的受众策划内容,并使用这些内容来构建数字辅助功能和其他工具,以帮助母语人士访问知识并为公共领域做出贡献。
5 条评论