6 个开源数据新闻工具

图片来源：

Opensource.com

在 20 世纪 80 年代后期我读新闻学院时，为报道收集数据通常需要花费数小时查阅印刷文件或缩微胶片。

自那时以来，很多事情都发生了变化。虽然印刷资源仍然有用，但越来越多的信息在网络上可供记者使用。这有助于推动所谓的数据新闻的蓬勃发展。从最基本的层面来说，数据新闻是使用数据（如人口普查数据、犯罪统计数据、人口统计数据等）查找和讲述故事的行为。

有许多功能强大且昂贵的工具使记者能够收集、清理、分析和可视化他们故事的数据。但是许多规模较小或陷入困境的新闻机构，更不用说独立记者了，根本没有预算购买这些工具。但这并不意味着他们就无路可走了。

有许多可靠的开源工具可供数据记者使用，这些工具既高效又令人印象深刻。本文着眼于六种可以帮助数据记者获取所需信息的工具。

抓取数据

记者在网络上找到的许多数据可以以电子表格或 CSV 或 PDF 文件的形式下载。但是，还有很多信息嵌入在网页中。与其手动复制和粘贴这些信息，几乎每位数据记者都会使用的一个技巧是抓取。抓取是使用自动化工具抓取嵌入在网页中的信息（通常以 HTML 表格的形式）的行为。

如果您或您组织中的某人具有技术倾向，那么 Scrapy 可能适合您。Scrapy 用 Python 编写，是一个命令行工具，可以从网页中快速提取结构化数据。Scrapy 的安装和设置有点挑战性，但是一旦它启动并运行，您就可以利用许多有用的功能。精通 Python 的程序员也可以快速扩展这些功能。

电子表格是数据记者的基本工具之一。在开源世界中，LibreOffice Calc 是使用最广泛的电子表格编辑器。Calc 不仅用于查看和操作数据。通过利用其网页查询导入过滤器，您可以将 Calc 指向包含表格数据的网页，并抓取页面上的一个或所有表格。虽然它不如 Scrapy 快或高效，但 Calc 可以很好地完成工作。

处理 PDF

无论是偶然还是有意，网络上的许多数据都锁定在 PDF 文件中。其中许多 PDF 可能包含有用的信息。如果您使用过 PDF，您就会知道从中提取数据可能是一件苦差事。

这就是 DocHive 的用武之地，DocHive 是 Raleigh Public Record 开发的一种工具，用于从 PDF 中提取数据。DocHive 适用于从扫描文档创建的 PDF。它分析 PDF，将其分成更小的部分，然后使用光学字符识别来读取文本并将文本注入到 CSV 文件中。阅读更多关于 DocHive 在这篇文章中的信息。

Tabula 与 DocHive 类似。它旨在抓取 PDF 中的表格信息并将其转换为 CSV 文件或 Microsoft Excel 电子表格。您只需在 PDF 中找到表格，选择表格，然后让 Tabula 完成剩下的工作。它快速而高效。

清理您的数据

通常，您抓取的数据可能包含拼写和格式错误或字符编码问题。这使得数据不一致且不可靠，因此数据清理至关重要。

如果您有一个小型数据集，即由几百行信息组成的数据集，那么您可以使用 LibreOffice Calc 和您的眼睛进行清理。但是，如果您有更大的数据集，手动完成这项工作将是一个漫长、缓慢、低效的过程。

相反，请转向 OpenRefine。它可以自动化操作和清理数据的过程。OpenRefine 可以对您的数据进行排序，自动查找重复条目，并重新排序您的数据。OpenRefine 的真正威力来自 facets。Facets 就像电子表格中的过滤器，可让您放大到特定的数据行。您可以使用 facets 来查找空白单元格和重复数据，以及查看某些值在数据中出现的频率。

OpenRefine 可以做更多的事情。您可以通过浏览文档来了解 OpenRefine 可以做什么。

可视化您的数据

拥有数据并用它写故事是好事。当试图总结、交流和理解数据时，基于该数据的优秀图形可能是一个福音。这就解释了网络和印刷品上信息图的受欢迎程度。

您不需要成为图形设计向导即可创建有效的可视化效果。如果您的需求不太复杂，Data Wrapper 可以创建有效的可视化效果。它是一个在线工具，将创建可视化效果分为四个步骤：从电子表格复制数据，描述您的数据，选择您想要的图像类型，然后生成图形。您无法通过 Data Wrapper 获得各种各样的图像类型，但是该过程再简单不过了。

显然，这并非开源数据新闻工具的详尽列表。但是，本文讨论的工具为预算有限的新闻机构，甚至是勇敢的自由职业者，提供了一个坚实的平台，可以使用数据来产生故事创意并支持这些故事。

标签

新闻业