6 个开源数据新闻工具

尚无读者喜欢这篇文章。
open up

Opensource.com

当我在 20 世纪 80 年代末就读新闻学院时,为报道收集数据通常需要花费数小时仔细研读印刷文档或缩微胶片。

自那时以来,很多事情都发生了变化。虽然印刷资源仍然有用,但越来越多的信息可在网络上供记者使用。这助长了数据新闻的蓬勃发展。从最基本的层面来说,数据新闻是使用数据(如人口普查数据、犯罪统计数据、人口统计数据等)查找和讲述故事的行为。

有许多功能强大且昂贵的工具,使记者能够收集、清理、分析和可视化他们报道的数据。但是,许多规模较小或陷入困境的新闻机构,更不用说独立记者,根本没有预算购买这些工具。但这并不意味着他们就束手无策。

有许多可靠的开源工具供数据新闻记者使用,它们能够高效且出色地完成工作。本文介绍了六款可以帮助数据新闻记者获取所需信息的工具。

获取数据

记者在网络上找到的许多数据都可以下载为电子表格或 CSV 或 PDF 文件。但是,还有大量信息嵌入在网页中。几乎每位数据新闻记者都会使用一种技巧,即抓取,而不是手动复制和粘贴这些信息。抓取是指使用自动化工具抓取嵌入在网页中的信息,通常以 HTML 表格的形式。

如果您或您组织中的某人具有技术倾向,那么 Scrapy 可能适合您。Scrapy 使用 Python 编写,是一款命令行工具,可以从网页中快速提取结构化数据。Scrapy 的安装和设置有点挑战性,但一旦启动并运行,您就可以利用许多 实用功能。精通 Python 的程序员也可以快速扩展这些功能。

电子表格是数据新闻记者的基本工具之一。在开源世界中,LibreOffice Calc 是使用最广泛的电子表格编辑器。Calc 不仅用于查看和处理数据。通过利用其 网页查询导入 过滤器,您可以将 Calc 指向包含表格数据的网页,并抓取页面上的一个或所有表格。虽然它不如 Scrapy 快速或高效,但 Calc 也能很好地完成工作。

处理 PDF

无论是意外还是有意为之,网络上的许多数据都锁定在 PDF 文件中。其中许多 PDF 可能包含有用的信息。如果您使用过 PDF,您就会知道从中提取数据可能是一件苦差事。

这就是 DocHive 的用武之地,DocHive 是 Raleigh Public Record 开发的一种用于从 PDF 中提取数据的工具。DocHive 可处理从扫描文档创建的 PDF。它分析 PDF,将其分成更小的部分,然后使用光学字符识别来读取文本并将文本注入到 CSV 文件中。阅读本文,了解有关 DocHive 的更多信息。

Tabula 与 DocHive 类似。它旨在抓取 PDF 中的表格信息并将其转换为 CSV 文件或 Microsoft Excel 电子表格。您只需在 PDF 中找到表格,选择表格,然后让 Tabula 完成其余工作即可。它快速而高效。

清理数据

通常,您抓取的数据可能包含拼写和格式错误或字符编码问题。这使得数据不一致且不可靠,并使数据清理成为必要。

如果您有一个小型数据集,即由几百行信息组成的数据集,那么您可以使用 LibreOffice Calc 和您的眼睛来完成清理工作。但是,如果您有更大的数据集,手动完成这项工作将是一个漫长、缓慢且效率低下的过程。

相反,请转向 OpenRefine。它可以自动化操作和清理数据的过程。OpenRefine 可以对数据进行排序,自动查找重复条目,并重新排序数据。OpenRefine 的真正强大之处在于 facets(分面)。分面就像电子表格中的过滤器,可让您放大到特定的数据行。您可以使用分面来查找空白单元格和重复数据,以及查看某些值在数据中出现的频率。

OpenRefine 可以做更多的事情。您可以通过浏览文档来了解 OpenRefine 可以做什么。

可视化数据

拥有数据并用它来撰写报道固然很好。当试图总结、交流和理解数据时,基于这些数据的优秀图表可能会带来帮助。这解释了 信息图表 在网络和印刷品中的流行。

您无需成为图形设计大师即可创建有效的可视化效果。如果您的需求不太复杂, Data Wrapper 可以创建有效的可视化效果。它是一款在线工具,可将创建可视化效果分为四个步骤:从电子表格复制数据,描述数据,选择所需的图像类型,然后生成图形。使用 Data Wrapper,您无法获得各种图像类型,但该过程再简单不过了。

显然,这并非开源数据新闻工具的详尽列表。但是,本文中讨论的工具为预算有限的新闻机构,甚至是有魄力的自由职业者提供了一个坚实的平台,可以使用数据来产生报道创意并支持这些报道。

标签
That idiot Scott Nesbitt ...
我是自由/开源软件的长期用户,撰写各种东西既为了乐趣也为了盈利。我并没有把自己看得那么严肃,而且我所有的特技都是自己完成的。

4 条评论

缺少的是保护您的数据、保护您的来源、保护您的通信!

谢谢您分享这些资源,Scott。我在 20 世纪 90 年代末/21 世纪初就读新闻学院,并参加了一门名为“互联网新闻”的课程。我们学习了在 Google 之前如何在网上搜索信息的基础知识。我们被告知在 ixquick.com 上进行所有搜索。后来,当我成为市政厅记者时,我过去每隔一周都必须跋涉到市中心市政厅去领取市议会议程。如今,完整的议程都在网上,包括辅助材料,更不用说来自市政部门的大量其他数据了。我非常尊重在互联网时代之前报道新闻的记者,尤其是在数据驱动的报道方面。令人惊叹的是,我们已经取得了多大的进步,以及在如此短的时间内发生了多大的变化。

Ginny,时代确实变了。当我在 80 年代就读新闻学院时,一位调查记者访问了我的班级,并描述了他典型的一天:早上第一件事就前往档案馆(或任何地方),仔细查阅文件,休息一下吃午饭,再仔细查阅更多文件。中间休息几次,并尝试找出信息来源。还有更多文件……

但是,正如 Nicolas Kayser-Bril 指出的那样,记者在重复使用政府主动发布的数据集之前应格外小心。 或者任何其他人发布的数据集,就此而言。

回复 ,作者 Ginny Hamilton

作为一名入门级数据新闻记者,您需要培养对他人正在使用的工具的意识,以便完成您钦佩的工作。您无法一次学会所有工具,也不应该尝试。但是,您应该对正在使用的工具培养一种环境意识。保留一份要查看的工具列表。观看演示并浏览文档或代码。然后,当您的项目产生需求时,您会记住足够的知识来入门。更多信息请访问 https://intellipaat.com/hadoop-online-training/

Creative Commons License本作品根据 Creative Commons Attribution-Share Alike 4.0 International License 获得许可。
© . All rights reserved.