您可能知道这种感觉:您请求数据并得到积极回应,但打开电子邮件后却发现附加了一堆 PDF。数据,中断了。
我们理解您的挫败感,并且我们已经为此做了一些事情:隆重推出 Textricator,我们的第一个开源产品。
我们是 Measures for Justice,一个刑事司法研究和透明度组织。我们的使命是为整个司法系统(从逮捕到定罪后)提供数据透明度。我们通过生成一系列多达 32 项绩效指标来涵盖整个刑事司法系统,按县划分。我们以多种方式获取数据——当然都是合法的——虽然许多州和县机构都精通数据,为我们提供高质量、格式化的 CSV 数据,但数据通常捆绑在软件中,没有简单的方法可以将其取出。PDF 报告是他们能提供的最好的。
开发人员 Joe Hale 和 Stephen Byrne 花费了过去两年时间开发 Textricator,为我们的内部使用提取数万页数据。Textricator 可以处理几乎任何基于文本的 PDF 格式——不仅是表格,还有来自 Crystal Reports 等工具生成的包含换行文本和详细信息部分的复杂报告。只需告诉 Textricator 您要收集的字段的属性,它就会快速处理文档,收集并写出您的记录。
不是软件工程师?Textricator 不需要编程技能;相反,用户描述 PDF 的结构,Textricator 处理其余部分。大多数用户通过命令行运行它;但是,也提供了基于浏览器的 GUI。
我们评估了其他优秀的开源解决方案,如 Tabula,但它们无法处理我们需要抓取的某些 PDF 的结构。“Textricator 既灵活又强大,并将我们处理大型数据集的时间从几天缩短到几小时,”技术主管 Andrew Branch 说。
在 MFJ,我们致力于透明度和知识共享,这包括让我们的软件可供任何人使用,特别是那些试图免费公开共享数据的人。Textricator 在 GitHub 上可用,并根据 GNU Affero General Public License Version 3 发布。
您可以在我们的免费 在线数据门户 上查看我们工作的成果,包括通过 Textricator 处理的数据。Textricator 是我们流程的重要组成部分,我们希望公民技术和政府组织都能使用这个新工具解锁更多数据。
如果您使用 Textricator,请告诉我们它如何帮助您解决数据问题。想要改进它?提交拉取请求。
1 条评论