6 个开源数据新闻工具

目前还没有读者喜欢这个。
open up

Opensource.com

在 20 世纪 80 年代后期我读新闻学院时,为报道收集数据通常需要花费数小时查阅印刷文件或缩微胶片。

自那时以来,很多事情都发生了变化。虽然印刷资源仍然有用,但越来越多的信息在网络上可供记者使用。这有助于推动所谓的数据新闻的蓬勃发展。从最基本的层面来说,数据新闻是使用数据(如人口普查数据、犯罪统计数据、人口统计数据等)查找和讲述故事的行为。

有许多功能强大且昂贵的工具使记者能够收集、清理、分析和可视化他们故事的数据。但是许多规模较小或陷入困境的新闻机构,更不用说独立记者了,根本没有预算购买这些工具。但这并不意味着他们就无路可走了。

有许多可靠的开源工具可供数据记者使用,这些工具既高效又令人印象深刻。本文着眼于六种可以帮助数据记者获取所需信息的工具。

抓取数据

记者在网络上找到的许多数据可以以电子表格或 CSV 或 PDF 文件的形式下载。但是,还有很多信息嵌入在网页中。与其手动复制和粘贴这些信息,几乎每位数据记者都会使用的一个技巧是抓取。抓取是使用自动化工具抓取嵌入在网页中的信息(通常以 HTML 表格的形式)的行为。

如果您或您组织中的某人具有技术倾向,那么 Scrapy 可能适合您。Scrapy 用 Python 编写,是一个命令行工具,可以从网页中快速提取结构化数据。Scrapy 的安装和设置有点挑战性,但是一旦它启动并运行,您就可以利用许多有用的功能。精通 Python 的程序员也可以快速扩展这些功能。

电子表格是数据记者的基本工具之一。在开源世界中,LibreOffice Calc 是使用最广泛的电子表格编辑器。Calc 不仅用于查看和操作数据。通过利用其 网页查询导入 过滤器,您可以将 Calc 指向包含表格数据的网页,并抓取页面上的一个或所有表格。虽然它不如 Scrapy 快或高效,但 Calc 可以很好地完成工作。

处理 PDF

无论是偶然还是有意,网络上的许多数据都锁定在 PDF 文件中。其中许多 PDF 可能包含有用的信息。如果您使用过 PDF,您就会知道从中提取数据可能是一件苦差事。

这就是 DocHive 的用武之地,DocHive 是 Raleigh Public Record 开发的一种工具,用于从 PDF 中提取数据。DocHive 适用于从扫描文档创建的 PDF。它分析 PDF,将其分成更小的部分,然后使用光学字符识别来读取文本并将文本注入到 CSV 文件中。阅读更多关于 DocHive 在这篇文章中的信息。

Tabula 与 DocHive 类似。它旨在抓取 PDF 中的表格信息并将其转换为 CSV 文件或 Microsoft Excel 电子表格。您只需在 PDF 中找到表格,选择表格,然后让 Tabula 完成剩下的工作。它快速而高效。

清理您的数据

通常,您抓取的数据可能包含拼写和格式错误或字符编码问题。这使得数据不一致且不可靠,因此数据清理至关重要。

如果您有一个小型数据集,即由几百行信息组成的数据集,那么您可以使用 LibreOffice Calc 和您的眼睛进行清理。但是,如果您有更大的数据集,手动完成这项工作将是一个漫长、缓慢、低效的过程。

相反,请转向 OpenRefine。它可以自动化操作和清理数据的过程。OpenRefine 可以对您的数据进行排序,自动查找重复条目,并重新排序您的数据。OpenRefine 的真正威力来自 facets。Facets 就像电子表格中的过滤器,可让您放大到特定的数据行。您可以使用 facets 来查找空白单元格和重复数据,以及查看某些值在数据中出现的频率。

OpenRefine 可以做更多的事情。您可以通过浏览文档来了解 OpenRefine 可以做什么。

可视化您的数据

拥有数据并用它写故事是好事。当试图总结、交流和理解数据时,基于该数据的优秀图形可能是一个福音。这就解释了网络和印刷品上信息图的受欢迎程度。

您不需要成为图形设计向导即可创建有效的可视化效果。如果您的需求不太复杂,Data Wrapper 可以创建有效的可视化效果。它是一个在线工具,将创建可视化效果分为四个步骤:从电子表格复制数据,描述您的数据,选择您想要的图像类型,然后生成图形。您无法通过 Data Wrapper 获得各种各样的图像类型,但是该过程再简单不过了。

显然,这并非开源数据新闻工具的详尽列表。但是,本文讨论的工具为预算有限的新闻机构,甚至是勇敢的自由职业者,提供了一个坚实的平台,可以使用数据来产生故事创意并支持这些故事。

标签
That idiot Scott Nesbitt ...
我是一名长期免费/开源软件用户,为乐趣和利润而写各种各样的东西。我并不把自己看得那么严肃,我所有的特技都是自己做的。

4 条评论

缺少的是保护您的数据、保护您的来源、保护您的通信!

感谢您分享这些资源,Scott。我在 90 年代末/2000 年代初在新闻学院学习,并参加了一门名为“互联网新闻”的课程。我们学习了如何在 Google 之前在线搜索信息的基础知识。我们被告知在 ixquick.com 上进行所有搜索。后来,当我成为市政厅记者时,我过去每隔一周都必须跋涉到市中心市政厅去领取市议会议程。现在,完整的议程都在网上,包括辅助材料,更不用说来自市政部门的大量其他数据了。我非常尊重互联网时代之前的记者,尤其是那些报道数据驱动故事的记者。我们已经走了多远,以及在如此短的时间内发生了多少变化,这真是令人惊叹。

Ginny,时代确实变了。当我在 80 年代读新闻学院时,一位调查记者访问了我的班级,并描述了他典型的一天:早上第一件事前往记录大厅(或任何地方),梳理文件,休息一下吃午饭,梳理更多文件。中间休息几次,并尝试找出消息来源。还有更多文件……

但是,正如 Nicolas Kayser-Bril 指出的那样,记者在重复使用政府主动发布的数据集之前应格外小心。或者任何其他人发布的数据集。

回复 ,作者:Ginny Hamilton

作为一名初级数据记者,您需要培养对其他人正在使用的工具的意识,以便完成您钦佩的工作。您不可能一次性学会所有这些工具,您也不应该尝试。但是,您应该对正在使用的工具培养一种环境意识。保留一份工具清单以供查看。观看演示并浏览文档或代码。然后,当您的项目产生需求时,您会记住足够的内容来入门。更多信息请访问 https://intellipaat.com/hadoop-online-training/

知识共享许可协议本作品根据知识共享署名-相同方式共享 4.0 国际许可协议获得许可。
© . All rights reserved.