开放存取平台,拯救奥里亚印度语

目前还没有读者喜欢这个。
A pile of books in different colors

Opensource.com

2014年2月,印度政府宣布南亚语言奥里亚语为印度的第六种古典语言,它是印度22种表定语言之一,拥有超过5000年的文学遗产。有超过3500年的文献记录,其余为未记录的口述历史。奥里亚语母语使用者开始希望能够实施许多与语言相关的项目,以发展这一悠久文学遗产的血脉,并看到该语言在全球范围内使用和口语化,不仅在文学领域,而且在计算机和手机游戏、互动式计算机应用程序以及其他数字媒体中——并作为一种交流语言触及大众。

到目前为止,尚未实施许多联邦倡议,也未做出任何政策层面的改变,以实施像 Unicode 这样简单的标准,以便轻松访问信息。而且,提供简洁易懂内容的手机应用程序也非常少。总的来说,在线上没有太多以标准格式提供的内容,这些内容易于搜索、访问和复制,

Wikisource 旨在改变这种状况,并正在努力为读者开启一个全新的在线资源世界。

奥里亚语母语使用者超过 4000 万,居住在印度奥里萨邦及其邻近邦以及世界各地的侨民中——主要居住在美国、英国、阿联酋以及许多南亚和东亚国家——互联网上提供的奥里亚语内容却少得多。最多的是奥里亚语维基百科截至 2014 年 10 月,已创建了 8441文章。更大的问题是,尽管有一些网站提供 Unicode 内容,但政府门户网站没有 Unicode 内容,因此无法搜索和重复使用。非营利组织 Srujanika 在另外两个机构的支持下,在“奥里亚语书籍开放获取 (OAOB)”项目的范围内,数字化了约 740 本书籍,其中大部分出版于 1850 年至 1950 年之间。这仍然是迄今为止奥里亚语最大的数字档案馆,但所有书籍都是扫描 PDF 格式,限制了内容的可搜索性。

奥里亚语 Wikisource是一个旨在数字化绝版稀有书籍的项目。该项目甚至允许作者和出版商通过在 CC0 或 CC BY-SA 许可下重新许可其受版权保护的作品来捐赠作品。目标是实现对大量书籍和手稿的访问,并创建更多的开放教育资源 (OER)。Wikisource 项目的最大优势在于,它可以使书籍文本以 Unicode 标准提供,使其可以在网络上搜索,并允许读者复制并在其他地方使用。大多数其他传统存档系统都缺乏这一重要功能。

Wikisource 由志愿者和社区运营,他们经常通过光学字符识别 (OCR) 重新键入或准备书籍,OCR 是一种将书籍扫描图像转换为文本的技术。访问 or.wikisource.org,参与并贡献奥里亚语 Wikisource,该项目向所有想要提供帮助的人开放!

作为一个 Wikimedia 项目,奥里亚语 Wikisource 经历了彻底而漫长的审批过程,作为一个活跃的孵化项目,历时约 1 年零 9 个月——首先由语言委员会审批,然后由 Wikimedia 基金会董事会审批。在这个孵化阶段,该项目已经完全数字化了三本书,部分数字化了一本书——这要归功于个人贡献者。教育机构卡林加社会科学研究所 (KISS) 与 Wikimedia 资助的互联网与社会知识获取中心 (CIS-A2K) 合作,正在数字化作者 Jagannath Mohanty 博士的 9 本书,这些书已于今年早些时候重新许可为 CC BY-SA 3.0。

四位新的 Wikisource 贡献者响应作者在 推文 和 Facebook 帖子中发起的数字化 14 世纪编纂的经典文学作品《奥里亚语博伽梵往世书》的号召而加入了该项目。“已经以各种非 Unicode 编码的字体输入的文字,现在可以通过(这种方式)进行转换,就像对《奥里亚语博伽梵往世书》所做的那样,该书已在社区托管网站 Odia.org 上输入和提供。新贡献者没有面临重新键入的问题,” Manoj Sahukar 说,他与作者一起设计了一个转换器,用于阅读文本并将其转换为 Unicode,用于《奥里亚语博伽梵往世书》

早期奥里亚语 Wikisource 贡献者的问题

Subhashish Panigrahi (SP):您自奥里亚语 Wikisource 成立以来就一直参与其中。您认为它将如何帮助其他奥里亚人?
Mrutyunjaya Kar,一位长期的维基媒体人,他在奥里亚语 Wikisource 上校对书籍:世界各地的奥里亚人将可以在指尖轻松访问大量的旧书和新书以及手稿。了解更多关于奥里萨邦悠久而辉煌的历史将变得更加容易。

SP: 您认为社会的任何特定阶层会从中受益吗?
Nasim Ali,最年长的活跃奥里亚语维基媒体人和 Wikisource 作者:书籍包含所有人类知识的精华。书籍的易于访问和传播是衡量社会知识水平的标志。在这个电子时代,Wikisource 不仅可以通过免费许可提供大量书籍的便捷访问,还可以帮助发展中经济体普及基础教育。Wikisource 和更便宜的互联网结合在一起,可能会催化 21 世纪的文艺复兴。

SP: 成为数字化奥里亚语博伽梵往世书的少数贡献者之一,感觉如何?您未来想如何参与其中?
Nihar Kumar Dalai,一位 Wikisource 作者:对我来说,能够参与如此古老文学作品的数字化,这是一种自豪的机会。我有时会想,如果我能全身心投入到这项工作中就好了!

SP: 您已经数字化了近两本书,是该项目最大的贡献者,也是奥里亚语 Wikisource 获得批准的主要原因之一。您下一步有什么计划来发展它并推广到大众?
Pankajmala Sarangi,一位 Wikisource 作者:我很高兴通过键入更多关于奥里亚语的书籍来做出贡献,以便可以将它们存储起来并供所有人使用。我们可以通过社交、印刷和音频及视频媒体,以及组织会议/讨论,将这项工作推广到大众。

Somewhere in Mumbai in a moving local train.
Subhashish Panigrahi (@subhapa) 是 OpenSpeaks 的创始人,这是一个屡获殊荣的项目,旨在帮助发展开放资源,以数字化记录边缘化语言。他共同创立了 O Foundation (OFDN),这是一个非营利组织,致力于解决人、文化和技术交汇处的问题,其核心是开放性。

4 条评论

抱歉,您评论说“到目前为止,尚未实施许多联邦倡议,也未做出任何政策层面的改变,以实施像 Unicode 这样简单的标准,以便轻松访问信息。” 这完全是错误的。1991 年,电子部门(现为 MCIT 的一部分)曾与 C-DAC 和 BIS 合作,将 ISCII 标准化——ISCII 是 16 位 Unicode 的先行者。在联邦政府的资助下,印度语言方面已经完成了大量工作。其中一个大问题是州一级的支持。所有州都在尝试开发自己的键盘输入等标准。是的,推广工具的工作做得不够认真——C-DAC 花了太长时间才开放其技术——不幸的是,这是早期做出的一些错误决定的结果。

今天,我认为用户面临的最大问题是缺乏输入设备。虽然我们有非常好的 Brahmi 键盘,但遗憾的是,它没有捆绑在操作系统中,而且也很难买到键盘贴纸 :(

亲爱的 Randompie,感谢您对这个话题的兴趣并分享有用的信息。但请允许我澄清一下,我提到的是奥里亚语被宣布为古典语言后政策层面的变化。90 年代的所有这些政策改革在这个特定案例中都不适用。这是一回事,尽管您提到的所有内容,但仍然存在多种彼此不兼容的 Unicode 标准。我每天都面临着实际问题。无论如何,这不是讨论的重点。说到政府机构的开放性和透明度,请允许我分享两个事实。与专有的 WINDOWS 特定软件相比,包含语言工具的 CD 中有很多空白文件夹。一个资金充足的奥里亚语 OCR 项目在过去 8 年中从未公开供用户测试和提供反馈,但只是给负责人带来了个人名誉。但本着善意的假设,我不想在这里争论您所说的与此无关的事情。很乐意通过电子邮件讨论这些问题 (psubhashishatgmaildotcom)。我对 @randompie 的最后一点看法,ISCII 已成历史,让我们尊重当时发生的事情。但在 Unicode 时代,谈论 ISCII 将毫无意义。谢谢,就此打住。

回复 作者 randompie

亲爱的 SP,

我同意您的观点,政府机构确实需要在透明度和开放性方面做很多工作。

关于您关于 ISCII 的观点——嗯,印度文字的 Unicode 在很大程度上不是 ISCII 吗?

无论如何:您能指出一些适用于印度语言的优秀 FOSS OCR 吗?

谢谢

嗨,同意您关于 ISCII 和 Unicode 的观点。我亲眼见过卡纳达语专有 OCR 的演示。由于它无法下载,不是开源的,并且开发人员明确表示甚至不销售该软件包,因此我不会提供有关此的详细信息。这违背了我为开源做出贡献的根本动机。另一个广为人知的 OCR 是 Tesseract。当然,它需要大量的培训和协作。我目前没有个人和/或专业时间来花在这上面。但我会继续联系人们。谁知道呢,也许会有人将其提升到一定水平?

回复 作者 randompie

© . All rights reserved.