今年二月,我报道了罗利公共记录报(Raleigh Public Record)——北卡罗来纳州罗利市的一家本地在线新闻出版物——正在创建一个开源解决方案,以从 PDF 中提取数据。许多新闻记者面临的问题是,如何轻松快速地(考虑到他们工作的性质,这一点非常重要)将数据和图像从他们用于报道的文件中转换为可用格式(请参阅此处示例)。
DocHive 项目现在正在爱德华·邓肯(Edward Duncan)的领导下进入下一个开发周期。他向我们介绍了他在未来六个月内为他的团队制定的计划。但首先,我问了
这个项目开源如何帮助其他记者?
通常,原始数据很容易被正在调查和撰写新闻报道的记者获取。他们可以访问 PDF 表单和其他结构化的基于图像的文件,但新闻记者,尤其是那些为全国和世界各地的地方出版物(如罗利公共记录报)工作的人,当他们能够减少原始数据提取时,会受益匪浅。
由于 DocHive 是一个开源工具,任何人都可以免费使用它,并对其进行修改以适应他们工作或出版物的需求。它可以帮助他们更有效地提取信息,从而使他们能够花费更多时间解释和分析信息。
DocHive 的下一个开发周期是什么样的?
它将大约持续六个月,并于 2013 年 8 月启动。
开发的前半部分将引入新功能并增强现有组件。在 8 月份,最初的活动将 направлены на 基于网络的模板构建器系统和支持资源。在 9 月份,我们将引入更多与提取数据和前端开发交互的方式。
开发的后半部分将涵盖额外的测试、提高准确性和性能,以及在多种环境中进行部署测试。
日程安排是什么?
目前,我正在专注于几项初步活动,制定更详细的计划、初步文档,并寻找更多人来填补一些开发角色。
随着项目进入 8 月,我将专注于模板构建器升级和文档,同时团队将致力于模板共享和一些分析功能。
我们将在开发周期中启动 DocHive 的在线 Beta 版本,以获取用户的反馈并提高运行时效率。Beta 版本的用户将通过罗利公共记录报的邀请码进行控制。
请告诉我们您的高层和中层目标。
我们的高层目标是
- 提高整体易用性
- 为可变内容长度整合动态模板
- 构建全面的支持资源和文档
- 支持多种部署环境
我们的中层目标是
- 改进自动模板匹配
- 启用对元数据的完全访问
- 改进文档转换后报告
- 引入可配置选项以轻松扩展系统
1 条评论