当我在 20 世纪 80 年代末就读新闻学院时,为报道收集数据通常需要花费数小时仔细研读印刷文档或缩微胶片。
自那时以来,很多事情都发生了变化。虽然印刷资源仍然有用,但越来越多的信息可在网络上供记者使用。这助长了数据新闻的蓬勃发展。从最基本的层面来说,数据新闻是使用数据(如人口普查数据、犯罪统计数据、人口统计数据等)查找和讲述故事的行为。
有许多功能强大且昂贵的工具,使记者能够收集、清理、分析和可视化他们报道的数据。但是,许多规模较小或陷入困境的新闻机构,更不用说独立记者,根本没有预算购买这些工具。但这并不意味着他们就束手无策。
有许多可靠的开源工具供数据新闻记者使用,它们能够高效且出色地完成工作。本文介绍了六款可以帮助数据新闻记者获取所需信息的工具。
获取数据
记者在网络上找到的许多数据都可以下载为电子表格或 CSV 或 PDF 文件。但是,还有大量信息嵌入在网页中。几乎每位数据新闻记者都会使用一种技巧,即抓取,而不是手动复制和粘贴这些信息。抓取是指使用自动化工具抓取嵌入在网页中的信息,通常以 HTML 表格的形式。
如果您或您组织中的某人具有技术倾向,那么 Scrapy 可能适合您。Scrapy 使用 Python 编写,是一款命令行工具,可以从网页中快速提取结构化数据。Scrapy 的安装和设置有点挑战性,但一旦启动并运行,您就可以利用许多 实用功能。精通 Python 的程序员也可以快速扩展这些功能。
电子表格是数据新闻记者的基本工具之一。在开源世界中,LibreOffice Calc 是使用最广泛的电子表格编辑器。Calc 不仅用于查看和处理数据。通过利用其 网页查询导入 过滤器,您可以将 Calc 指向包含表格数据的网页,并抓取页面上的一个或所有表格。虽然它不如 Scrapy 快速或高效,但 Calc 也能很好地完成工作。
处理 PDF
无论是意外还是有意为之,网络上的许多数据都锁定在 PDF 文件中。其中许多 PDF 可能包含有用的信息。如果您使用过 PDF,您就会知道从中提取数据可能是一件苦差事。
这就是 DocHive 的用武之地,DocHive 是 Raleigh Public Record 开发的一种用于从 PDF 中提取数据的工具。DocHive 可处理从扫描文档创建的 PDF。它分析 PDF,将其分成更小的部分,然后使用光学字符识别来读取文本并将文本注入到 CSV 文件中。阅读本文,了解有关 DocHive 的更多信息。
Tabula 与 DocHive 类似。它旨在抓取 PDF 中的表格信息并将其转换为 CSV 文件或 Microsoft Excel 电子表格。您只需在 PDF 中找到表格,选择表格,然后让 Tabula 完成其余工作即可。它快速而高效。
清理数据
通常,您抓取的数据可能包含拼写和格式错误或字符编码问题。这使得数据不一致且不可靠,并使数据清理成为必要。
如果您有一个小型数据集,即由几百行信息组成的数据集,那么您可以使用 LibreOffice Calc 和您的眼睛来完成清理工作。但是,如果您有更大的数据集,手动完成这项工作将是一个漫长、缓慢且效率低下的过程。
相反,请转向 OpenRefine。它可以自动化操作和清理数据的过程。OpenRefine 可以对数据进行排序,自动查找重复条目,并重新排序数据。OpenRefine 的真正强大之处在于 facets(分面)。分面就像电子表格中的过滤器,可让您放大到特定的数据行。您可以使用分面来查找空白单元格和重复数据,以及查看某些值在数据中出现的频率。
OpenRefine 可以做更多的事情。您可以通过浏览文档来了解 OpenRefine 可以做什么。
可视化数据
拥有数据并用它来撰写报道固然很好。当试图总结、交流和理解数据时,基于这些数据的优秀图表可能会带来帮助。这解释了 信息图表 在网络和印刷品中的流行。
您无需成为图形设计大师即可创建有效的可视化效果。如果您的需求不太复杂, Data Wrapper 可以创建有效的可视化效果。它是一款在线工具,可将创建可视化效果分为四个步骤:从电子表格复制数据,描述数据,选择所需的图像类型,然后生成图形。使用 Data Wrapper,您无法获得各种图像类型,但该过程再简单不过了。
显然,这并非开源数据新闻工具的详尽列表。但是,本文中讨论的工具为预算有限的新闻机构,甚至是有魄力的自由职业者提供了一个坚实的平台,可以使用数据来产生报道创意并支持这些报道。
4 条评论