目前大约有 7,000 种语言正在使用,而且每两周就有一种语言消失。联合国教科文组织表示, 一半 的世界语言可能在一个世纪内消失。 在我的祖国印度, 过去 50 年里已经消失了 220 种语言 ,并且有 197 种语言 濒临灭绝。
开放科学 通过使个人和组织能够协作和交流知识来改进彼此的工作,从而促进科学研究。 其中一个可以利用这种帮助的领域是世界各地的本土语言。
语言优势
小时候,我在印度奥里萨邦的一个小镇长大,那里至少有 30% 的人口讲 桑塔利语,但其余 70% 的人(包括我的家人)从未尝试学习这种语言。 大多数人讲 奥里亚语。 我们不必学习桑塔利语,因为奥里亚语在学校和更广阔的职业市场中使用。
语言优势是客观存在的,这本身并没有问题,但我们需要确保同时保护古老的语言,这样我们才不会丢失语言中固有的故事和文化片段。 我们该怎么做? 对于桑塔利语,我们没有做好准备,因此谷歌花了将近 15 年的时间才发布了第一个符合 Unicode(全球通用编码标准)的 字体。 然后,我领导了一个 项目,为桑塔利语构建第二个符合 Unicode 且 开放字体许可证 (OFL) 授权的字体。(由印度排版师 Pooja Saxena 设计,输入工具由 Jnanaranjan Sahoo 和 Nasim Ali 开发。)
语言消亡的原因有很多,包括:
- 在多元文化和多语言的社会中,官方和/或主要语言具有获得政府资助的优势。 例如,它们被用于学校教育和科学研究。
- 少数民族语言通常由 土著居民 或生活贫困的人使用。
- 缺乏数字工具来帮助社会和文化延续和分享他们的母语、少数民族语言。 随着讲故事越来越多地在网上进行,对数字工具和其他标准的需求变得越来越重要。
开源之道如何拯救这些语言
- 我们需要一份世界语言地图,并标注保存每种语言的相关挑战。
- 我们需要协作工具和技术,以便与濒危语言社区密切合作。
- 我们需要开放教育资源,例如手册和其他材料,来培训人们如何进行语言记录。
- 我们需要记录关于现在的开放多媒体内容(例如,当前事件的新闻报道和其他社会经济事件)以及过去(民间文学和文化现象),并添加注释以扩大语言的范围。
- 我们需要数字工具来构建语言应用程序(例如,机器学习和自然语言处理工具,如文本转语音,可用于放大多媒体内容并帮助构建数字辅助工具,如屏幕阅读器)。
已经有一些工作正在进行,但还有更多工作要做。 具有突破性的语言保护倡议正在进行中,以数字形式保存本土语言。 其中一些值得注意的包括:
- 濒危语言生活语言研究所
- 开放语言档案社区 (OLAC)
- TVMalintzi,一个基于 YouTube 的纳瓦特尔语电视台
- 关于该主题的研究和新闻报道,例如 Matt Hansen 的 美洲濒危语言的未来
- 全球一体项目
- Wikitongues,帮助社区记录本土语言的视频叙事
- 国家人文基金会和美洲原住民
- Openwords,一个开源的语言学习应用程序
- 数字语言多样性项目 (DLDP),用于构建用于语言保护的 OER
- 宝藏语言讲故事 以及语言学家 Steven Bird 博士 的其他语言保护项目
- StoryCorps 用于录制讲故事
考虑到语言灭绝率如此之高,有必要不断进行干预。 我个人启动了一个名为 OpenSpeaks 的项目,旨在构建 OER 并帮助公民档案管理员创建多媒体语言文档。 我希望为更广泛的受众策划内容,并使用这些内容来构建数字辅助工具和其他工具,以帮助母语人士访问知识并为公共领域做出贡献。
5 条评论