开放存取平台,以拯救奥里亚印度语

尚无读者喜欢这篇文章。
A pile of books in different colors

Opensource.com

2014年2月,印度政府宣布南亚语言奥里亚语为印度的第6种古典语言,它是印度22种官方语言之一,拥有超过5000年的文学遗产。其中有超过3500年的文献记录,其余为未成文的口头历史。奥里亚语母语者开始期望能够实施许多与语言相关的项目,以发展这一悠久文学遗产的血脉,并看到这种语言在全球范围内被使用和口语化,不仅在文学领域,而且在计算机和手机游戏、交互式计算机应用程序以及其他数字媒体中——并作为一种交流语言普及大众。

到目前为止,尚未出台许多联邦倡议,也未做出任何政策层面的改变,以实施像 Unicode 这样简单的标准来方便信息访问。而且,提供简洁易懂内容的移动应用程序非常少。总体而言,在线提供的标准格式内容不多,难以搜索、访问和复制,

Wikisource 正是为了改变这种状况而来,并且正在努力为读者打开一个全新的在线资源世界。

尽管有超过 4000 万奥里亚语母语者居住在印度奥里萨邦及其邻近邦以及世界其他地区的散居人口中——主要居住在美国、英国、阿联酋以及许多南亚和东亚国家——但在互联网上提供的奥里亚语内容却少得多。最多的是 奥里亚语维基百科截至 2014 年 10 月,已创建 8441文章。更大的问题是,尽管有一些网站提供 Unicode 内容,但政府门户网站没有 Unicode 内容,导致它们无法搜索和重用。非营利组织 Srujanika 在其他两家机构的支持下,在 奥里亚语书籍开放访问 (OAOB) 项目的范围内数字化了约 740 本书籍,其中大多数出版于 1850 年至 1950 年之间。这仍然是迄今为止奥里亚语最大的数字档案馆,但所有书籍都是扫描的 PDF 文件,限制了内容的可搜索性。

奥里亚语维基文库是一个旨在数字化稀有且无版权书籍的项目。该项目甚至允许作者和出版商通过在 CC0 或 CC BY-SA 许可下重新许可其受版权保护的作品来捐赠它们。其目标是实现对大量书籍和手稿的访问,并创建更多的开放教育资源 (OER)。维基文库项目的最大优势在于,它以 Unicode 标准提供书籍文本,使其可在网络上搜索,并允许读者在其他地方复制和使用。大多数其他传统存档系统都缺乏这一重要功能。

维基文库由志愿者和社区运营,他们通常通过光学字符识别 (OCR) 重新输入或准备书籍,OCR 是一种将书籍扫描图像转换为文本的技术。访问 or.wikisource.org 参与并贡献奥里亚语维基文库,该项目向所有想要帮助的人开放!

作为维基媒体项目,奥里亚语维基文库作为一个活跃的孵化项目,经历了大约 1 年零 9 个月的全面而漫长的审批过程——首先由语言委员会批准,然后由维基媒体基金会董事会批准。在这个孵化阶段,该项目已经完整地数字化了三本书,部分数字化了一本书——这要归功于个人贡献者。教育机构卡林加社会科学研究所 (KISS) 与维基媒体资助的互联网与社会中心知识获取 (CIS-A2K) 合作,正在数字化作者 Jagannath Mohanty 博士的 9 本书籍,这些书籍在今年早些时候重新许可为 CC BY-SA 3.0。

四位新的维基文库贡献者响应作者在 推特和 Facebook 帖子上的号召加入了该项目,以数字化 14 世纪编纂的经典文学作品《奥里亚语博伽梵往世书》。 “已经以各种非 Unicode 编码的字体键入的内容,现在可以通过(这种方式)进行转换,就像对《奥里亚语博伽梵往世书》所做的那样,它已被键入并可在社区托管的网站 Odia.org 上找到。新的贡献者没有面临重新输入的问题,”Manoj Sahukar 说,他与作者一起设计了一个 转换器,用于读取文本并将其转换为《奥里亚语博伽梵往世书》的 Unicode。

针对奥里亚语维基文库早期贡献者的问题

Subhashish Panigrahi (SP):您从奥里亚语维基文库创立之初就参与其中。您认为它将如何帮助其他奥里亚人?
Mrutyunjaya Kar,一位长期在奥里亚语维基文库上校对书籍的维基媒体人:全球的奥里亚人将可以轻松访问大量的旧书和新书以及在线手稿。了解更多关于奥里萨邦悠久而辉煌的历史将变得更加容易。

SP: 您认为社会的任何特定阶层将从中受益吗?
Nasim Ali,最年长的活跃奥里亚语维基媒体人和维基文库作者:书籍包含人类所有知识的要点。书籍的易于访问和传播是衡量社会知识水平的标志。在这个电子时代,Wikisource 不仅可以帮助人们轻松访问大量免费许可的书籍,还可以帮助在发展中经济体中普及基础教育。Wikisource 和更便宜的互联网相结合,可能会催化 21 世纪的文艺复兴。

SP: 成为数字化《奥里亚语博伽梵往世书》的少数贡献者之一感觉如何?您将来想如何参与?
Nihar Kumar Dalai,一位维基文库作者:能够参与如此古老文学的数字化对我来说是一个自豪的机会。我有时会想,如果我能全身心投入就好了!

SP: 您已经数字化了近两本书,是该项目最大的贡献者,也是奥里亚语维基文库获得批准的主要原因之一。您下一步有什么计划来发展它并推广到大众?
Pankajmala Sarangi,一位维基文库作者:我很高兴通过输入更多关于奥里亚语的书籍来做出贡献,以便可以将它们存储起来并供所有人使用。我们可以通过社交媒体、印刷媒体、音频和视频媒体以及组织会议/讨论将其推广到大众。

Somewhere in Mumbai in a moving local train.
Subhashish Panigrahi (@subhapa) 是 OpenSpeaks 的创始人,这是一个屡获殊荣的项目,旨在帮助发展开放资源,以数字化记录边缘化语言。他与人共同创立了 O Foundation (OFDN),这是一个非营利组织,致力于解决人、文化和技术交汇处的问题,并将开放性作为其核心。

4 条评论

抱歉,您的评论“到目前为止,尚未出台许多联邦倡议,也未做出任何政策层面的改变,以实施像 Unicode 这样简单的标准来方便信息访问。” 完全错误。 1991 年,电子部(现在的 MCIT 的一部分)与 C-DAC 和 BIS 合作,将 ISCII(16 位 Unicode 的先驱)标准化。联邦政府资助了印度语言方面的重大工作。主要问题之一是州一级的支持。所有州都在尝试制定自己的键盘输入等标准。是的,在推广这些工具方面做得不够认真——C-DAC 花了太长时间才开放其技术——不幸的是,这是早期一些错误决策的结果。

今天,我觉得用户面临的最大问题是缺少输入设备。虽然我们有 Brahmi 键盘,它非常好,但遗憾的是,它没有捆绑在操作系统中,而且也很难获得键盘贴纸 :(

亲爱的 Randompie,感谢您对这个话题的兴趣并分享有用的信息。但请允许我澄清,我提到的是奥里亚语被宣布为古典语言后的政策层面变化。 90 年代的所有这些政策改革在这种特定情况下都是无效的。这是一件不同的事情,尽管您提到了一切,但仍然存在多种互不兼容的 Unicode 标准。我每天都面临着实际问题。无论如何,这不是讨论的重点。谈到政府机构的开放性和透明度,让我分享两个事实。与专有的 WINDOWS 特定软件相比,包含语言工具的 CD 有很多空白文件夹。一个资金充足的奥里亚语 OCR 项目在过去 8 年中从未向公众公开,供用户测试和提供反馈,而只是给负责人带来了个人名利。但假设是出于善意,我不想在这里争论您所说的那些不相关的事情。很乐意通过电子邮件 (psubhashishatgmaildotcom) 讨论这些问题。我对 @randompie 的最后一点看法是,ISCII 已经成为历史,让我们尊重当时发生的事情。但在 Unicode 时代,谈论 ISCII 将毫无意义。谢谢,到此为止。

回复 作者:randompie

亲爱的 SP,

我同意您的观点,政府机构确实需要在透明度和开放性方面做出很多努力。

关于您关于 ISCII 的观点 - 嗯,印度文字的 Unicode 在很大程度上是 ISCII,这不是事实吗?

无论如何:您能向我推荐一些适用于印度语言的优秀 FOSS OCR 吗?

谢谢

嗨,同意您关于 ISCII 和 Unicode 的观点。我亲自看过 Kannada 专有 OCR 的演示。由于它不可下载,不是开源的,并且开发人员明确表示甚至不出售该软件包,因此我将避免提供有关此的详细信息。这违背了我为开源做出贡献的根本动机。另一个广为人知的 OCR 是 Tesseract。当然,它需要大量的培训和协作。目前我没有个人和/或专业时间来投入到这方面。但我会继续与人联系。谁知道呢,也许有人会把它提升到一定水平?

回复 作者:randompie

知识共享许可协议本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。
© . All rights reserved.