开放平台,拯救奥里亚印度语

还没有读者喜欢这个。
A pile of books in different colors

Opensource.com

2014 年 2 月,印度政府宣布南亚语言奥里亚语为印度的第 6 种古典语言,它是印度 22 种计划语言之一,拥有超过 5000 年的文学遗产。有超过 3500 年的文献记录,其余为未记录的口述历史。奥里亚语母语使用者开始希望能够实施许多与语言相关的项目,以发展这一悠久文学遗产的血脉,并看到该语言在全球范围内使用和口语化,不仅在文学作品中,而且在计算机和手机游戏、交互式计算机应用程序以及其他数字媒体中——并作为一种交流语言传播到大众。

到目前为止,尚未出台许多联邦倡议,也未做出任何政策层面的改变,以实施像 Unicode 这样简单的标准来方便信息访问。而且,提供简洁易懂内容的手机应用程序也很少。总的来说,在线上没有太多以标准格式提供的内容,这些内容易于搜索、访问和复制,

Wikisource 正是要改变这一点,并致力于为读者开启一个全新的在线资源世界。

在印度奥里萨邦及其邻近邦以及散居世界各地的奥里亚语母语使用者超过 4000 万人(主要居住在美国、英国、阿联酋以及许多南亚和东亚国家)的情况下,互联网上提供的奥里亚语内容却少得多。最多的是奥里亚语维基百科截至 2014 年 10 月,已创建 8441文章。更大的问题是,虽然有一些网站提供 Unicode 内容,但政府门户网站没有 Unicode 内容,使其无法搜索和重复使用。非营利组织 Srujanika 在另外两个机构的支持下,在项目范围内数字化了约 740 本书:奥里亚语书籍开放访问 (OAOB),其中大部分出版于 1850 年至 1950 年之间。这仍然是迄今为止奥里亚语最大的数字档案馆,但所有书籍都是扫描的 PDF,限制了内容的可搜索性。

奥里亚语 Wikisource 是一个旨在数字化绝版书籍的项目。该项目甚至允许作者和出版商通过在 CC0 或 CC BY-SA 许可下重新许可他们的受版权保护的作品来捐赠。目标是实现对大量书籍和手稿的访问,并创建更多的开放教育资源 (OER)。Wikisource 项目的最大优势在于,它使书籍的文本以 Unicode 标准提供,使其可以在网络上搜索,并允许读者复制并在其他地方使用。大多数其他传统存档系统都缺乏这一重要功能。

Wikisource 由志愿者和社区运营,他们经常通过光学字符识别 (OCR) 重新输入或准备书籍,这是一种将书籍扫描图像转换为文本的技术。访问 or.wikisource.org参与并贡献奥里亚语 Wikisource,该项目向所有想要帮助的人开放!

作为一个 Wikimedia 项目,奥里亚语 Wikisource 经历了大约 1 年零 9 个月的漫长而彻底的审批过程,作为一个活跃的孵化项目——首先是语言委员会,然后是 Wikimedia 基金会的董事会。在这个孵化阶段,由于个人贡献者的努力,该项目已经完全数字化了三本书,部分数字化了一本书。教育机构卡林加社会科学研究所 (KISS) 与 Wikimedia 资助的互联网与社会知识获取中心 (CIS-A2K) 合作,正在数字化作者 Jagannath Mohanty 博士的 9 本书,这些书在今年早些时候重新许可为 CC BY-SA 3.0。

四位新的 Wikisource 贡献者响应作者在 推文和 Facebook 帖子中号召数字化 14 世纪编纂的经典文学作品奥里亚语博伽梵歌。“已经以各种非 Unicode 编码字体输入的内容,现在可以通过(这个)转换,就像对奥里亚语博伽梵歌所做的那样,它是在社区托管网站 Odia.org 上输入和提供的。新贡献者没有面临重新输入的问题,” Manoj Sahukar 说,他与作者一起为奥里亚语博伽梵歌设计了一个用于阅读文本并转换为 Unicode 的 转换器

奥里亚语 Wikisource 早期贡献者的问题

Subhashish Panigrahi (SP):您从奥里亚语 Wikisource 成立之初就参与其中。您认为它将如何帮助其他奥里亚人?
Mrutyunjaya Kar,一位长期在奥里亚语 Wikisource 上校对书籍的维基媒体人:全球各地的奥里亚人将可以在指尖访问到大量的旧书和新书以及手稿。更多地了解奥里萨邦悠久而辉煌的历史将变得更加容易。

SP:您认为社会的任何特定阶层将从中受益吗?
Nasim Ali,最活跃的奥里亚语维基媒体人和 Wikisource 作者:书籍包含了所有人类知识的精华。书籍的易于访问和传播是衡量社会智力水平的标志。在这个电子时代,Wikisource 不仅可以通过免费许可提供大量书籍的便捷访问,还可以帮助发展中经济体普及基础教育。Wikisource 和更便宜的互联网结合起来,可能会催化 21 世纪的文艺复兴。

SP:作为数字化奥里亚语博伽梵歌的少数贡献者之一,您感觉如何?您将来想如何参与?
Nihar Kumar Dalai,一位 Wikisource 作者:能够参与如此古老文学作品的数字化对我来说是一个自豪的机会。我有时会想,如果我可以全身心投入这项工作就好了!

SP:您已经数字化了将近两本书,是该项目的最大贡献者,也是奥里亚语 Wikisource 获得批准的主要原因之一。您下一步有什么计划来发展它并推广到大众?
Pankajmala Sarangi,一位 Wikisource 作者:我很高兴通过输入更多关于奥里亚语的书籍来做出贡献,以便可以将它们存储起来并提供给所有人。我们可以通过社交、印刷和音视频媒体以及组织会议/讨论将其推广到大众。

Somewhere in Mumbai in a moving local train.
Subhashish Panigrahi (@subhapa) 是 OpenSpeaks 的创始人,这是一个屡获殊荣的项目,旨在帮助发展开放资源,以数字方式记录边缘化语言。他与人共同创立了 O Foundation (OFDN),这是一个非营利组织,致力于解决以开放性为核心的人、文化和技术交汇处的问题。

4 条评论

抱歉,您评论“到目前为止,尚未出台许多联邦倡议,也未做出任何政策层面的改变,以实施像 Unicode 这样简单的标准来方便信息访问。”显然是错误的。1991 年,电子部门(现在是 MCIT 的一部分)与 C-DAC 和 BIS 合作,将 ISCII(16 位 Unicode 的前身)标准化。在联邦政府资助下,印度语言方面已经做了大量工作。最大的问题之一是州一级的支持。所有州都试图开发自己的键盘输入等标准。是的,推广工具的工作并没有真正认真地进行——C-DAC 花了太长时间才开放其技术——不幸的是,这是早期做出的一些错误决定的结果。

今天,我感觉用户面临的最大问题是缺少输入设备。虽然我们有非常好的 Brahmi 键盘,但可悲的是,它没有捆绑在操作系统中,而且也很难买到键盘贴纸 :(

亲爱的 Randompie,感谢您对这个话题的兴趣并分享有用的信息。但请允许我澄清一下,我提到的是奥里亚语被宣布为古典语言后政策层面的变化。90 年代的所有那些政策改革在这种特殊情况下都是无效的。这是一回事,尽管您提到了一切,但仍然存在多种互不相通的 Unicode 标准。我每天都面临着实际问题。无论如何,这不是讨论的重点。谈到政府机构的开放性和透明度,请允许我分享两个事实。与专有的 WINDOWS 特定软件相比,包含语言工具的 CD 有很多空白文件夹。一个资金充足的奥里亚语 OCR 项目在过去 8 年中从未公开供用户测试和提供反馈,而只是给负责人带来了个人名誉。但假设是出于好意,我不想在这里争论您所说的与此无关的事情。很乐意通过电子邮件(psubhashishatgmaildotcom)讨论这些问题。我对 @randompie 的最后一点是,ISCII 已成为历史,让我们尊重当时发生的事情。但在 Unicode 时代,谈论 ISCII 将毫无意义。谢谢,到此为止。

回复 作者:randompie

亲爱的 SP,

我同意您的观点,政府机构确实需要在透明度和开放性方面做很多工作。

关于您关于 ISCII 的观点 - 嗯,印度文字的 Unicode 在很大程度上不就是 ISCII 吗?

无论如何:您能给我指出一些适用于印度语言的优秀 FOSS OCR 吗?

谢谢

嗨,同意您关于 ISCII 和 Unicode 的观点。我亲眼见过卡纳达语专有 OCR 的演示。由于它不可下载,不是开源的,并且开发者明确表示甚至不出售该软件包,因此我不会提供有关此的详细信息。这与我为开源做出贡献的根本动机背道而驰。另一个广为人知的 OCR 是 Tesseract。当然,它需要大量的培训和协作。我目前没有个人和/或专业时间来投入到这方面。但我将继续联系人们。谁知道呢,也许有人会把它提升到一定水平?

回复 作者:randompie

Creative Commons License本作品根据 Creative Commons Attribution-Share Alike 4.0 International License 许可获得许可。
© . All rights reserved.