使用 Karma 进行开源数据集成

目前还没有读者喜欢这个。
Government and library open data using Creative Commons tools

Opensource.com

Karma 是一款免费的开源数据集成工具,可以轻松地将各种格式的数据转换为链接数据。

我最近参加了由我们的讲师 Pedro Szekely 主讲的关于 Karma 的半天研讨会。他一开始就警告我们,他对库知之甚少,但对数据却了解很多。如果您有兴趣了解,研讨会所需的文件 在 GitHub 上。您可以按照 Wiki 上的教程步骤进行操作,当然,您也可以在 GitHub 上找到 Karma 本身。

基础知识

Karma 是一款基于 Web 的工具,服务器和浏览器都在您的机器上运行,因此我们使用了安装了该工具的计算机进行体验。

用户加载其应用程序的本体和要转换为 Karma 的每个数据文件的数据样本。Karma 使转换过程变得容易,因为它提供了直观的图形用户界面,以可视化和编辑数据文件到本体的映射。

Karma 非常灵活,它可以从各种数据格式(SQL、XML、JSON、CSV、Excel、AVRO、Web 服务)导入数据。

Karma 可以扩展到非常大的数据集(4000 万个文档,10 亿个三元组),并且可以定期刷新(例如,每小时一次)。

实践操作

研讨会的其余部分是 Karma 的实践操作体验。

在我们将一些示例数据加载到 Karma 后,我们将其映射到几个本体。例如,当单击标题字段时,Karma 甚至为我们的标题可能需要映射到的内容提供了四个建议。它知道如何提出这个建议,因为该工具会学习(即使您过去犯过映射错误)。如果您经常处理相同类型的数据,这可以节省大量时间。Pedro 提醒我们,Karma 并不知道正确的映射,用户可以选择他们想要的任何内容——即使它是“错误的”。

一旦进入您的数据,您可以根据需要使用 Python 脚本来清理它。每一列的菜单中都有一个“PyTransform”选项。我个人从未编写过 Python,但它看起来很简单,Pedro 向我们保证,在他使用 Karma 之前,他也不知道 Python,但发现他提出的每个问题都已经有人在 StackOverflow 上提出并回答了。

完成数据处理后,您可以生成 RDF、MySQL、JSON 或许多其他格式,以用于 Web 应用程序。

当我们在列中编辑数据时,Pedro 对我们必须选择的选项之一做了一个非常有趣的评论。他说“你永远不应该这样做”,当被问到为什么它仍然是一个选项时,他说“因为有人要求我们添加它。” 当我教人们如何使用开源工具时,我发现自己以完全相同的方式回答这个问题。开源充满了仅仅因为有人要求而存在的功能。

结论

在参加完这次研讨会后,我了解到 Karma 非常强大!我们有太多混乱的数据,像这样的工具非常方便——当然,它是开源的,这使其更具吸引力。我还了解到,我可能真的不适合每天使用像 Karma 这样的工具,但我认识很多人会使用,我希望这份总结能对他们有所帮助。

链接/资源

标签
User profile image.
Nicole C. Baratta (Engard) 是红帽公司的高级内容策略师。她获得了德雷塞尔大学的 MLIS 学位和朱尼亚塔学院的文学学士学位。Nicole 担任 ChickTech Austin 的主管志愿者。Nicole 因其众多出版物而闻名,包括她的著作《Library Mashups》、《More Library Mashups》和《Practical Open Source Software for Libraries》。

评论已关闭。

Creative Commons License本作品根据 Creative Commons Attribution-Share Alike 4.0 International License 获得许可。
© . All rights reserved.