过去几个月 Lanfrica 开展了很多活动,我们很高兴地宣布 Lanfrica 已正式启动。
什么是 Lanfrica?
Lanfrica 旨在通过创建以语言为先的集中式目录,来缓解在寻求非洲语言资源时遇到的困难。
例如,如果您正在寻找特定非洲语言的语言数据集或研究论文等资源,Lanfrica 将引导您访问网络上提供所需语言资源的来源。如果这些资源不存在,我们将采用参与式方法,允许您贡献论文或数据集。

(Chris Emezue,CC BY-SA 4.0)
在 Lanfrica,我们采用以语言为中心的方法。我们统计了 2,199 种非洲语言,我们的语言部分拥有所有非洲语言——是的,所有语言,包括已灭绝的语言!我们创建了算法,可以非常有效地识别资源中涉及的非洲语言,使我们能够整理甚至没有明确指定其所用非洲语言的作品(而且有很多)。
Lanfrica 为更好地发现和呈现网络上的非洲语言提供了巨大的潜力。Lanfrica 可以提供有关非洲语言进展情况的有用统计数据。作为一个简单的例子,语言过滤器部分立即概述了每种非洲语言现有的自然语言处理 (NLP) 资源的数量。

(Chris Emezue,CC BY-SA 4.0)
从这个搜索结果中,您可以轻松看到,在南非语言中,南非荷兰语有 28 个 NLP 资源,而斯瓦蒂语只有 8 个。或者,举另一个例子,贝宁的 Gbe 语簇语言的 NLP 资源远少于某些南非语言。

(Chris Emezue,CC BY-SA 4.0)
这种洞察力可以引导更好地分配资金和努力,以推动更多未被充分研究的语言在 NLP 领域取得进展,从而促进非洲语言的平等发展。
Lanfrica v1 仅仅是开始。我们未来将有重大更新
-
我们计划让用户能够注册并添加或编辑 Lanfrica 上的资源。
-
我们目前的资源主要由 NLP 数据集组成。接下来,我们计划研究计算语言学出版物和语言学出版物。有关计划包含的所有资源类型,请参见上面的信息图。
-
我们正在探索各种技术,以简化识别相关资源并将其连接到 Lanfrica 的过程。
为了在前进过程中获得更多更新,请加入我们的 Slack 或在 Twitter 上关注我们,成为 Lanfrica 社区的一份子。
本文最初发表于 Lanfrica 博客,并经许可转载。
评论已关闭。