谷歌的光学字符识别 (OCR) 软件现在支持超过 248 种世界语言(包括所有主要的南亚语言)。它非常简单易用,并且可以检测大多数语言,准确率超过 90%。
这项技术从图像、印刷文本扫描件,甚至手写稿中提取文本,这意味着可以从几乎任何旧书、手稿或图像中提取文本。
谷歌的 OCR 可能正在使用 Tesseract 的依赖项,Tesseract 是一个作为自由软件发布的光学字符识别引擎,或者 OCRopus,一个免费的文档分析和光学字符识别 (OCR) 系统,主要用于 Google 图书。Tesseract 在 1995-2006 年期间作为一个社区项目开发,后来被 谷歌接管,被认为是最高精度的 OCR 引擎之一,支持超过 60 种语言。源代码可在 GitHub 上获取。
OCR 项目支持页面 提供了关于在输出文本中 OCR 后保留字符格式(如粗体和斜体)的更多详细信息
在处理您的文档时,我们尝试保留基本的文本格式,例如粗体和斜体文本、字体大小和类型以及换行符。但是,检测这些元素很困难,我们可能并不总是成功。其他文本格式和结构元素,例如项目符号和编号列表、表格、文本列以及脚注或尾注,很可能会丢失。
泰米尔语维基人和维基媒体印度项目主管 Ravishankar Ayyakkannu 在测试后在 Facebook 上说:“对于马拉雅拉姆语和泰米尔语等一些语言,OCR 的准确率几乎达到 100%,并且支持自动裁剪、通过丢弃图像分离文本以及忽略彩色背景等格式。” 以下印度语言——孟加拉语、马拉雅拉姆语、卡纳达语、奥里亚语、泰米尔语和泰卢固语——的母语使用者也在 Facebook 帖子中评论了他们测试 OCR 后的反馈。
然而,对于像古木基语(用于书写旁遮普语)等少数文字,OCR 后的输出效果非常差,并导致不同文字的乱码文本。
总的来说,对于那些拥有尚未数字化的古老文本的语言来说,这是一个巨大的飞跃。许多语言的古老而有价值的文本现在可以数字化,并使用像 维基文库这样的平台在互联网上共享。
编者注:文章已根据社区反馈进行了更新。我们将“谷歌的 OCR 部分使用了 Tesseract,Tesseract 是一个作为自由软件发布的光学字符识别引擎”更改为“谷歌的 OCR 可能正在使用 Tesseract 的依赖项,Tesseract 是一个作为自由软件发布的光学字符识别引擎,或者 OCRopus,一个免费的文档分析和光学字符识别 (OCR) 系统,主要用于 Google 图书。”如果您对文章或技术有其他反馈,请在评论中告知我们。-Rikki Endsley
1 条评论