在 20 世纪 80 年代后期我读新闻学院时,为报道收集数据通常需要花费数小时查阅印刷文件或缩微胶片。
自那时以来,很多事情都发生了变化。虽然印刷资源仍然有用,但越来越多的信息在网络上可供记者使用。这有助于推动所谓的数据新闻的蓬勃发展。从最基本的层面来说,数据新闻是使用数据(如人口普查数据、犯罪统计数据、人口统计数据等)查找和讲述故事的行为。
有许多功能强大且昂贵的工具使记者能够收集、清理、分析和可视化他们故事的数据。但是许多规模较小或陷入困境的新闻机构,更不用说独立记者了,根本没有预算购买这些工具。但这并不意味着他们就无路可走了。
有许多可靠的开源工具可供数据记者使用,这些工具既高效又令人印象深刻。本文着眼于六种可以帮助数据记者获取所需信息的工具。
抓取数据
记者在网络上找到的许多数据可以以电子表格或 CSV 或 PDF 文件的形式下载。但是,还有很多信息嵌入在网页中。与其手动复制和粘贴这些信息,几乎每位数据记者都会使用的一个技巧是抓取。抓取是使用自动化工具抓取嵌入在网页中的信息(通常以 HTML 表格的形式)的行为。
如果您或您组织中的某人具有技术倾向,那么 Scrapy 可能适合您。Scrapy 用 Python 编写,是一个命令行工具,可以从网页中快速提取结构化数据。Scrapy 的安装和设置有点挑战性,但是一旦它启动并运行,您就可以利用许多有用的功能。精通 Python 的程序员也可以快速扩展这些功能。
电子表格是数据记者的基本工具之一。在开源世界中,LibreOffice Calc 是使用最广泛的电子表格编辑器。Calc 不仅用于查看和操作数据。通过利用其 网页查询导入 过滤器,您可以将 Calc 指向包含表格数据的网页,并抓取页面上的一个或所有表格。虽然它不如 Scrapy 快或高效,但 Calc 可以很好地完成工作。
处理 PDF
无论是偶然还是有意,网络上的许多数据都锁定在 PDF 文件中。其中许多 PDF 可能包含有用的信息。如果您使用过 PDF,您就会知道从中提取数据可能是一件苦差事。
这就是 DocHive 的用武之地,DocHive 是 Raleigh Public Record 开发的一种工具,用于从 PDF 中提取数据。DocHive 适用于从扫描文档创建的 PDF。它分析 PDF,将其分成更小的部分,然后使用光学字符识别来读取文本并将文本注入到 CSV 文件中。阅读更多关于 DocHive 在这篇文章中的信息。
Tabula 与 DocHive 类似。它旨在抓取 PDF 中的表格信息并将其转换为 CSV 文件或 Microsoft Excel 电子表格。您只需在 PDF 中找到表格,选择表格,然后让 Tabula 完成剩下的工作。它快速而高效。
清理您的数据
通常,您抓取的数据可能包含拼写和格式错误或字符编码问题。这使得数据不一致且不可靠,因此数据清理至关重要。
如果您有一个小型数据集,即由几百行信息组成的数据集,那么您可以使用 LibreOffice Calc 和您的眼睛进行清理。但是,如果您有更大的数据集,手动完成这项工作将是一个漫长、缓慢、低效的过程。
相反,请转向 OpenRefine。它可以自动化操作和清理数据的过程。OpenRefine 可以对您的数据进行排序,自动查找重复条目,并重新排序您的数据。OpenRefine 的真正威力来自 facets。Facets 就像电子表格中的过滤器,可让您放大到特定的数据行。您可以使用 facets 来查找空白单元格和重复数据,以及查看某些值在数据中出现的频率。
OpenRefine 可以做更多的事情。您可以通过浏览文档来了解 OpenRefine 可以做什么。
可视化您的数据
拥有数据并用它写故事是好事。当试图总结、交流和理解数据时,基于该数据的优秀图形可能是一个福音。这就解释了网络和印刷品上信息图的受欢迎程度。
您不需要成为图形设计向导即可创建有效的可视化效果。如果您的需求不太复杂,Data Wrapper 可以创建有效的可视化效果。它是一个在线工具,将创建可视化效果分为四个步骤:从电子表格复制数据,描述您的数据,选择您想要的图像类型,然后生成图形。您无法通过 Data Wrapper 获得各种各样的图像类型,但是该过程再简单不过了。
显然,这并非开源数据新闻工具的详尽列表。但是,本文讨论的工具为预算有限的新闻机构,甚至是勇敢的自由职业者,提供了一个坚实的平台,可以使用数据来产生故事创意并支持这些故事。
4 条评论