数据极客和爱好者们请注意!DocHive 的测试现已开放——在 GitHub 上开始使用。
DocHive 是一个开源的 Ruby on Rails 项目,用于从基于图像的 PDF 中捕获数据。DocHive 专为需要更有效的方式从繁琐数据中提取意义的记者和其他专业人士创建,目前正在开发中,并已准备好在社区中进行测试。
背景
在最初的测试扩展期间,我的小团队和我遇到了应用程序先决条件方面的问题。为了解决这个问题,我们准备了一个虚拟机并安装了先决条件。
以下是登录虚拟机和安装在 VM 上的 MySQL 数据库的凭据。
虚拟机凭据
用户名: dochive
密码:pr3v13w
MySQL 凭据
用户名:root
密码:d0ch1v3
运行 DocHive
1. 启动虚拟机(这是虚拟机。点击“下载”将尝试扫描文件以查找病毒。由于文件大小,它不会扫描。接下来点击“仍然下载”将下载文件。)
2. 以dochive身份登录(密码为pr3v13w)
3. 双击 start.sh 以启动服务器和后台作业处理(在桌面)
4. 启动 Firefox(底部菜单栏上的图标)
5. 创建用户帐户(本地虚拟机)
6. 开始上传文档
运行时要求
下载并安装 Oracle VirtualBox。
运行期间您必须连接到互联网。DocHive 能够与 Google 图表建立连接。
测试已从结构化表单数据扩展到研究人员的通用数据采集。我正在与研究合作伙伴 Jeff Provencher 合作,我们正在数字化他收集的基于图像的 PDF 文本。该视频展示了从他的一份联合国文件中提取数据的过程。
观看此视频,了解如何从五页 PDF 中提取数据: walkthrough.mp4 - 04:15
常见问题和问题
它不工作:检查您是否已连接到互联网。
它突然不工作了:您是否更改了位置?通过关闭控制台窗口并再次双击 start.sh 来重启服务器和 worker 作业。
客户端显示语言设置不起作用:唯一安装的 OCR 引擎是英语,其他语言引擎尚未开发。联系我以指导您如何在 Tesseract 中安装语言包。
自拍与模板相同,只是它只使用一次。
刷新浏览器:当作业完成时,软件不会自动刷新。
自动模板匹配:即将推出。
我的数据文件有重复项:后台作业可能存在错误,或者每个模板都是自拍。
如果您有任何问题或想聊天,请给我留言。
评论已关闭。