印度的一种诗歌形式称为 Vachana sahitya,是流行的印度语言 卡纳达语 的一部分。它在 11 世纪发展,在 12 世纪作为宗教 林伽耶特运动 的一部分而蓬勃发展。从那时起,超过 259 位 Vachana 作者,称为 Vachanakaru,汇编了超过 11,000 首 Vachana(诗节)。
卡纳塔克邦政府将这些诗节中的 21,000 首数字化出版成 15 卷,称为 Samagra Vachana Samputa。然后,这些卷被转变成一个名为 Vachana Sanchaya 的独立项目;这个项目由两位卡纳达语维基人、一位卡纳达语语言学家和作家 O. L. Nagabhushana Swamy 接手,以丰富 卡纳达语维基文库。该团队使用了 Unicode,这是一种将文本(和代码)转换为新格式的一致性标准。
Swamy 试图访问这些诗歌,但遇到了麻烦,因为它采用了 ISCII,一种印度字符编码标准。我们开始 编写脚本,使 Vachanas(诗歌)可以通过索引进行搜索。但是,为了做到这一点,我们必须构建一个平台供所有人使用:语言研究人员、学生以及对接触这些文学作品感兴趣的公众。
卡纳达语维基人 Omshivaprakash 负责平台的架构,确定了基础设施需求,并选择了要使用的开源软件工具。我参与了为数字化提供关键技术支持,并通过建议、反馈和质量保证提供有价值的投入。
目前,我们的存储库 Vachana Sanchaya 拥有大约 200,000 个独特的单词,这些单词来源于这些诗歌。公众一直在使用我们的存储库,并通过我们的 Facebook、Twitter 和 Google+ 个人资料访问 Vahanas(诗歌)。现在有成千上万的人每天将阅读 Vahana 作为他们日常生活的一部分。Vachana Sanchaya 不仅用于阅读诗歌,也用于研究。因此,我们添加了一种方法,供研究人员帮助我们审查内容,并将添加来自各种研究论文的参考文献。
最常搜索的词语是
- ಕರ್ಮ (Karma:英文:work/deed,工作/行为)
- ಸತ್ಯ (Sathya 英文:truthfulness,真实)
- ನದಿ (Nadī:英文:river,河流)
|
所有内容目前都通过 OpenData API 向公众开放,一旦完成审查工作,它将通过 WikiSource 在公共领域发布。这将为学生、开发人员、研究人员以及任何有兴趣为卡纳达语和其他印度语言构建语言工具的人开放系统。用户将能够使用我们的代码将任何公有领域的书籍数字化。任何语言的早期文献都备受尊重,因此通过开放平台提供这些文献可以重复使用内容,用于研究、出版和其他文档工作。
我们鼓励其他此类项目遵循我们的方法,并使用我们流程中任何有帮助的部分。
展望未来,我们希望
- 如果更多的研究人员帮助标记单词并扩充词汇表,则启动 自然语言处理 (NLP) 项目
- 继续进行后续的类似项目,用于 Sarvagnana Vachanagalu 和 Dāsa Sanchaya(工作已经开始)以及 Vyasa 和 Muddann(工作尚未开始)
- 将此平台扩展到公共领域中可用的其他当代文学作品
由 Pavithra Hanchagaiah 和 Omshivaprakash HI 撰写。
由 Subhashish Panigrahi, CIS-A2K 编辑。
评论已关闭。