Textricator：数据提取变得简单

新的开源工具从 PDF 文档中提取复杂数据，无需编程技能。

We don't make software for free, we make it for freedom

图片来源：

Opensource.com

您可能知道这种感觉：您请求数据并得到积极回应，但打开电子邮件后却发现附加了一堆 PDF。数据，中断了。

我们理解您的挫败感，并且我们已经为此做了一些事情：隆重推出 Textricator，我们的第一个开源产品。

我们是 Measures for Justice，一个刑事司法研究和透明度组织。我们的使命是为整个司法系统（从逮捕到定罪后）提供数据透明度。我们通过生成一系列多达 32 项绩效指标来涵盖整个刑事司法系统，按县划分。我们以多种方式获取数据——当然都是合法的——虽然许多州和县机构都精通数据，为我们提供高质量、格式化的 CSV 数据，但数据通常捆绑在软件中，没有简单的方法可以将其取出。PDF 报告是他们能提供的最好的。

开发人员 Joe Hale 和 Stephen Byrne 花费了过去两年时间开发 Textricator，为我们的内部使用提取数万页数据。Textricator 可以处理几乎任何基于文本的 PDF 格式——不仅是表格，还有来自 Crystal Reports 等工具生成的包含换行文本和详细信息部分的复杂报告。只需告诉 Textricator 您要收集的字段的属性，它就会快速处理文档，收集并写出您的记录。

不是软件工程师？Textricator 不需要编程技能；相反，用户描述 PDF 的结构，Textricator 处理其余部分。大多数用户通过命令行运行它；但是，也提供了基于浏览器的 GUI。

我们评估了其他优秀的开源解决方案，如 Tabula，但它们无法处理我们需要抓取的某些 PDF 的结构。“Textricator 既灵活又强大，并将我们处理大型数据集的时间从几天缩短到几小时，”技术主管 Andrew Branch 说。

在 MFJ，我们致力于透明度和知识共享，这包括让我们的软件可供任何人使用，特别是那些试图免费公开共享数据的人。Textricator 在 GitHub 上可用，并根据 GNU Affero General Public License Version 3 发布。

您可以在我们的免费在线数据门户上查看我们工作的成果，包括通过 Textricator 处理的数据。Textricator 是我们流程的重要组成部分，我们希望公民技术和政府组织都能使用这个新工具解锁更多数据。

如果您使用 Textricator，请告诉我们它如何帮助您解决数据问题。想要改进它？提交拉取请求。

标签

工具

政府

Steve Spiker

Steve (Spike) Spiker 是 Measures For Justice 的数据布道者，OpenOakland 的联合创始人兼前执行董事，OpenOakland 是一个专注于支持开放、敏捷和参与式政府的公民技术组织。他之前曾担任奥克兰 Urban Strategies Council 的研究与技术主管，并经营 Stealing Beauty Photography。

更多关于我

Stephen Byrne