记者创建开源解决方案，从 PDF 中提取数据

图片来源：

Opensource.com

一群记者宣布推出突破性的开源解决方案，以解决许多作家和记者面临的问题，即如何将 PDF 或图像中的数据轻松转换为电子表格或其他可用格式。

编辑 Charles Duncan Pardo 和他在 Raleigh Public Record 的记者团队与许多小型新闻编辑室一样——他们没有足够的人手来为数百页的信息进行数据录入，也没有预算雇用一些可怜的大学生来为他们做这件事。他说

这是我们《记录报》两年多来一直试图克服的问题。故事始于韦克县竞选财务报表。这些报表以纸质形式提交，韦克县选举委员会的工作人员将其扫描并将其图像放在网上。问题是，查看数据的唯一方法是逐页查看，而分析数据的唯一方法是手动浏览并将数据逐行输入到电子表格中。

Duncan 与他的兄弟，全职程序员 Edward Duncan 一起创建了 DocHive。它使用 XML 将页面分解为更小的部分，将每个部分分成自己的图像文件，然后使用光学字符识别技术（OCR）读取几个单词或数字，并将其插入到文本文件中。

DocHive 将于 2 月 28 日在由调查记者与编辑协会和国家计算机辅助报道研究所组织的年度计算机辅助报道会议上正式发布。代码将位于 GitHub 上，《记录报》正在其服务器上建立 Wiki，以共享模板和文档。他们选择使用哪种许可证尚未确定。

对于全国各地的记者和其他作家来说，这项技术显然是一个好消息，他们现在有一种方法可以轻松快速地将数据转换为结构化信息。

据泰勒·杜克斯（Reporter’s Lab 的执行编辑，这是一个为寻求技术解决方案的记者提供的资源）称，尽管这对记者来说是一个常见的难题，但很少有人尝试解决它。Paul Bradshaw（英国记者和《Scraping for Journalists》的作者）和 Pete Warden（开发者和《O’Reilly’s Data Source Handbook》的作者）都没有听说过类似的解决方案。他继续说

公共记录提供了大量信息，记者可以利用这些信息来追究当权者的责任。但是，过时的政府和企业簿记可能会使处理这些文档变得昂贵、耗时，并且超出许多新闻编辑室的能力范围。

通过使记者能够自动数字化这些扫描的纸质记录，DocHive 可以从以文档驱动的调查性报道的早期阶段中消除数小时的苦差事，并显着提升大大小小新闻编辑室的监督能力。

Duncan 和他的兄弟将于 3 月 1 日在肯塔基州路易斯维尔举行的 NICAR 会议上展示 DocHive。

标签

商业