查看原文
其他

GitHub 大热!也许会成为你心中的OCR开源工具NO1!

TJ 程序猿DD 2021-11-13

前几天,小编的一个朋友跟小编吐槽, 说起最近国内一些银行科技内部在用的比较流行的几种高科技技术,其中OCR一定是逃不过去的, 但凡哪家银行想做数字化转型,从行长到老总肯定第一句就说要做OCR,但到底什么是OCR,能做什么,可能说出的人并不知道,只是知道这个名字说出来就代表着智能项目。

OCR,全称optical character recognition,意思是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。

但凡是对国内OCR方面有所了解的工程师,一定或多或说听说过 PaddleOCR 这个项目。其主要推荐的 PP-OCR 算法更是被国内外企业OCR开发者广泛应用。

尤其在GitHub上短短时间内已经积攒了15k+的星,频频登上了各种榜单前列。

小编来给大家粗略的算一下:

  • 2020年6月,发布OCR超轻量模型,登上GitHub Trending全球趋势榜日榜第一的宝座。
  • 同年8月,开源CVPR2020算法,再次登上GitHub趋势榜单。
  • 2个月后,PP-OCR算法发布,登上Paperswithcode趋势榜第一名。
  • 2021年1月,Style-Text文本合成算法发布,同时上线PPOCRLabel数据标注工具,被某主流报告评为中国GitHub Top20活跃项目。
  • 同年4月,开源了PGNet端到端识别算法。
  • 同年8月,开源了PP-Structure工具包,支持版面分析与表格识别。
  • 同一月,GitHub上Star突破15k+,截止发文时点,已经16K+!

然后就在这个月,PaddleOCR的项目团队宣布,根据之前项目中碰到的问题以及解决经验,经过整组团队人员的共同努力,构建并发布新一代的OCR系统PP-OCRv2

PP-OCRv2CPU推理速度相比于PP-OCR server提升220%;效果相比于PP-OCR mobile 提升7%

简单的说,就是更高更快更强

同时在功能加强的基础上,大小仅13M(检测(3.1M)+ 方向分类器(1.4M)+ 识别(8.5M)= 13.0M),可以轻松部署服务器端和移动端。

光说不练假把式,说了那么多我们先来一起看下PP-OCRv2的实际识别效果究竟如何:

看着的确不错,别急,还有各种其他不同的场景,例如:

中文识别模型

英文识别模型

多语言识别模型

光看效果是不错,但是如果程序猿小伙伴遇到问题不会用怎么办?

项目组考虑到这点,特地为众多好学的程序猿小伙伴准备了丰富详尽的教程文档。

从项目环境的准备,到项目的运行,快速开始,各种模型的设计训练,各种实际的部署以及常见的问题,光看看这个教程,就感觉受益匪浅了~

总的来说, PP-OCRv2是在PP-OCR的基础上,在5个方面重点优化:

  • 检测模型采用CML协同互学习知识蒸馏策略
  • CopyPaste数据增广策略
  • 识别模型采用LCNet轻量级骨干网络
  • UDML 改进知识蒸馏策略
  • Enhanced CTC loss损失函数改进

(如下图红框所示)进一步在推理速度和预测效果上取得明显提升。

对于上述更新内容有兴趣想深度钻研的小伙伴,这里还有一份长达8页的文档,可供研究学习(下载地址同项目地址一并关注公众号回复关键字后提供)

从下面项目的更新记录我们也可以看到,就在前几天,项目组还就新技术的发布做了直播,可谓用心良苦。

如此优秀的项目,怎能不让人心动呢!想加入体验OCR效果的小伙伴,别的不多说了,赶紧来关注获取项目地址及技术文档吧!

点击下方卡片,关注公众号“TJ君

回复“OCR”,获取仓库地址

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存