Textricator:数据提取变得简单

新的开源工具从 PDF 文档中提取复杂数据,无需编程技能。
429 位读者喜欢这篇文章。
We don't make software for free, we make it for freedom

Opensource.com

您可能知道这种感觉:您请求数据并得到积极回应,但打开电子邮件后却发现附加了一堆 PDF。数据,中断了。

我们理解您的挫败感,并且我们已经为此做了一些事情:隆重推出 Textricator,我们的第一个开源产品。

我们是 Measures for Justice,一个刑事司法研究和透明度组织。我们的使命是为整个司法系统(从逮捕到定罪后)提供数据透明度。我们通过生成一系列多达 32 项绩效指标来涵盖整个刑事司法系统,按县划分。我们以多种方式获取数据——当然都是合法的——虽然许多州和县机构都精通数据,为我们提供高质量、格式化的 CSV 数据,但数据通常捆绑在软件中,没有简单的方法可以将其取出。PDF 报告是他们能提供的最好的。

开发人员 Joe Hale 和 Stephen Byrne 花费了过去两年时间开发 Textricator,为我们的内部使用提取数万页数据。Textricator 可以处理几乎任何基于文本的 PDF 格式——不仅是表格,还有来自 Crystal Reports 等工具生成的包含换行文本和详细信息部分的复杂报告。只需告诉 Textricator 您要收集的字段的属性,它就会快速处理文档,收集并写出您的记录。

不是软件工程师?Textricator 不需要编程技能;相反,用户描述 PDF 的结构,Textricator 处理其余部分。大多数用户通过命令行运行它;但是,也提供了基于浏览器的 GUI。

我们评估了其他优秀的开源解决方案,如 Tabula,但它们无法处理我们需要抓取的某些 PDF 的结构。“Textricator 既灵活又强大,并将我们处理大型数据集的时间从几天缩短到几小时,”技术主管 Andrew Branch 说。

在 MFJ,我们致力于透明度和知识共享,这包括让我们的软件可供任何人使用,特别是那些试图免费公开共享数据的人。Textricator 在 GitHub 上可用,并根据 GNU Affero General Public License Version 3 发布。

您可以在我们的免费 在线数据门户 上查看我们工作的成果,包括通过 Textricator 处理的数据。Textricator 是我们流程的重要组成部分,我们希望公民技术和政府组织都能使用这个新工具解锁更多数据。

如果您使用 Textricator,请告诉我们它如何帮助您解决数据问题。想要改进它?提交拉取请求。

标签
User profile image.
Steve (Spike) Spiker 是 Measures For Justice 的数据布道者,OpenOakland 的联合创始人兼前执行董事,OpenOakland 是一个专注于支持开放、敏捷和参与式政府的公民技术组织。他之前曾担任奥克兰 Urban Strategies Council 的研究与技术主管,并经营 Stealing Beauty Photography。
Avatar
Measures for Justice 的开发人员

1 条评论

有时我真希望 pdf 直接消失..

每周我都会下载饮食计划,以 pdf 格式分发。我可以下载整周的,但它会持续进行下去,如果我想每天打印一张纸,我需要每天单独下载。然后使用 pdfjoiner 进行快速合并.. 除非并非所有日子都是 2 页,有些是 1 页.. 所以我必须过滤掉哪些要合并...

似乎这还不够,还有不必要的边框,所以我需要在打印前裁剪所有 pdf 文件,这样会更清晰..

因此,每周我大约浪费 10-15 分钟来打印 7 张纸。太糟糕了,这个工具在这种情况下帮不上什么忙,但我可以看到如果我需要做一些更严肃的工作,它还是有用的。

所有这些都应该是简单的操作,但对于 pdf 来说并非如此。

© . All rights reserved.