DocHive 新阶段:开源数据提取工具

还没有读者喜欢这个。
paper planes

Opensource.com

今年二月,我报道了罗利公共记录报(Raleigh Public Record)——北卡罗来纳州罗利市的一家本地在线新闻出版物——正在创建一个开源解决方案,以从 PDF 中提取数据。许多新闻记者面临的问题是,如何轻松快速地(考虑到他们工作的性质,这一点非常重要)将数据和图像从他们用于报道的文件中转换为可用格式(请参阅此处示例)。

DocHive 项目现在正在爱德华·邓肯(Edward Duncan)的领导下进入下一个开发周期。他向我们介绍了他在未来六个月内为他的团队制定的计划。但首先,我问了

Q&A

这个项目开源如何帮助其他记者?

通常,原始数据很容易被正在调查和撰写新闻报道的记者获取。他们可以访问 PDF 表单和其他结构化的基于图像的文件,但新闻记者,尤其是那些为全国和世界各地的地方出版物(如罗利公共记录报)工作的人,当他们能够减少原始数据提取时,会受益匪浅。

由于 DocHive 是一个开源工具,任何人都可以免费使用它,并对其进行修改以适应他们工作或出版物的需求。它可以帮助他们更有效地提取信息,从而使他们能够花费更多时间解释和分析信息。

DocHive 的下一个开发周期是什么样的?

它将大约持续六个月,并于 2013 年 8 月启动。

开发的前半部分将引入新功能并增强现有组件。在 8 月份,最初的活动将 направлены на 基于网络的模板构建器系统和支持资源。在 9 月份,我们将引入更多与提取数据和前端开发交互的方式。

开发的后半部分将涵盖额外的测试、提高准确性和性能,以及在多种环境中进行部署测试。

日程安排是什么?

目前,我正在专注于几项初步活动,制定更详细的计划、初步文档,并寻找更多人来填补一些开发角色。

随着项目进入 8 月,我将专注于模板构建器升级和文档,同时团队将致力于模板共享和一些分析功能。

我们将在开发周期中启动 DocHive 的在线 Beta 版本,以获取用户的反馈并提高运行时效率。Beta 版本的用户将通过罗利公共记录报的邀请码进行控制。

请告诉我们您的高层和中层目标。

我们的高层目标是

  1. 提高整体易用性
  2. 为可变内容长度整合动态模板
  3. 构建全面的支持资源和文档
  4. 支持多种部署环境

我们的中层目标是

  1. 改进自动模板匹配
  2. 启用对元数据的完全访问
  3. 改进文档转换后报告
  4. 引入可配置选项以轻松扩展系统
标签
User profile image.
Jen 领导红帽数字社区团队的社区经理团队。她与丈夫和女儿 June 和 Jewel 住在罗利。

1 条评论

向爱德华·邓肯的努力和持续的毅力“致敬”。

Creative Commons License本作品根据 Creative Commons Attribution-Share Alike 3.0 Unported License 获得许可。
© . All rights reserved.