OCR在资产管理系统的应用

LCC 2023-07-21 11:46:20

一、从业务说起：为什么需要 OCR？

为什么固定资产管理系统中会用到 OCR 呢？就得从梳理需求时遇到的问题说起。

产品经理，产品经理网站

固定资产的全生命周期管理的第一步是“资产入库”，而入库是一个非常繁琐的过程，需要将大量信息录入系统。通过前期调研发现录入过程费时费力，还经常出现录入错误的问题（比如设备型号、序列码是较长的数字、字母序列，人工录入很容易出错）。

有没有办法解决这个痛点呢？受证件识别的启发，我们想到了 OCR 辅助人工录入，那么接下来就是调研这种方案的可行性了。

二、关于 OCR

OCR，也就是 optical character recognation（光学字符识别），是通过算法识别出图像中的文字内容，算是图像识别的一个分支。OCR 对纯文本的识别已经比较成熟，识别率普遍可以达到 90%以上，百度、阿里、腾讯等各大厂都有相应的服务可以直接调用。

1. OCR 分类

产品经理，产品经理网站

OCR 技术可以按字体类别、识别语言、识别场景进行细分，每个细分的算法有所不同，现在暂时还没有非常通用的算法同时适用于多个分类。

其中：

印刷体识别成熟度要高于手写体（原因也比较好理解，印刷体比较规范，手写体五花八门有时候人都难以辨认）。
中文和西文的识别成熟度高于小语种，中英文混合识别也能比较好的解决。
自然环境中的文字识别难度也要大于文档图片识别，因为自然环境中文字所处环境要更加复杂，文字检测难度要大于文档图片。
对特定格式文档（如身份证、发票、成绩单）的识别要好于自由文档（文字、表格、图片、公式混排）。

调研到这里，我们可以发现：OCR 辅助资产入库的需求，属于上述分类里的【自然环境】下的【中英文混合】【印刷体】识别。目前文字识别印刷体识别已经比较成熟，但自然环境下的拍照可能会给识别带来一些难度，初步判断 OCR 辅助人工进行资产入库信息录入是可行的。

2. OCR 算法理解

既然 OCR 是图像识别的一种，那么处理的流程就和大多数图像识别算法是一致的，即预处理-图像检测-图像识别。以自然环境下的文字识别为例，OCR 算法的工作流程大概是这样的：

产品经理，产品经理网站

预处理：文本经过扫描或拍照后会发生形变等问题，会对识别造成干扰，预处理就是通过灰度化、二值化，倾斜校正等方式消除这种干扰，以提高识别准确率。其中倾斜矫正的常见算法有投影法、hough 法等。

文字检测：目的在于找出文字的区域，是文字识别的基础。简单背景（e.g.扫描、截屏）和复杂背景（e.g.广告牌、说明书）下的文字检测方法差异较大，实现算法可以分为传统 CV 算法和 DL 算法两大类。

形态学方法：通过膨胀腐蚀等操作找到文字区域，只适用于简单背景。
MSER：常用的传统文字检测算法，检测速度快，在简单背景和部分复杂背景中适用。但背景特别复杂时，检测效果可能较差。
CTPN：是 CNN 和 RNN 相结合的算法，适用于简单和复杂背景的文字检测，但文字倾斜时的检测效果较差。
SegLink：可以用于检测倾斜文字（但文字间隔不能太大）。
EAST：端到端文本检测方法，也可用于检测倾斜文字，检测的准确性和速度都不错。

文字识别：文字识别又根据文字的长度分为定长（e.g.验证码）和不定长。不定长文字识别现在主要是通过 DL 算法实现，目前两大主流技术是 CRNN OCR 和 attention OCR。由于文字识别的特殊性，虽然其表现形式是图像，但本质是序列化的文本。所以不论是CRNN还是attention，思路其实都是用CNN提取特征，然后用RNN处理序列化，充分运用了文本图像的所有信息。

通过对 OCR 工作流程以及主流算法的了解，我们能对后续技术实现有个大概的认识，和 RD battle 时候也更加有底了。