我的OCR学习路线
本文总结自己目前对 OCR 的认识,和学习过程
什么是 OCR ?
- OCR (Optical Character Recognition,光学字符识别)指将打字、手写或印刷文本的图像电子或机械转换为机器编码文本的过程
- 文本检测 (Text detection) :检测文本的所在位置和范围及其布局,可以使用传统的 ROI 提取实现,也可使用目标检测去实现,如 Faster R-CNN,[[FCN]]
- 文本识别 (Text recognition):对文本内容进行识别,将图像中的文本信息转化为文本信息
- 文本定位 (Text Spotting) :分文本检测 (Text detection) 文本识别 (Text recognition)统一到一起的简称
OCR 的方法?
- 文本检测 (Text detection) :其实就是检测文本行实例,可以使用目标检测的方法,也可使用语义分割的方法
- 文本识别 (Text recognition) :这个是 OCR 的重点,主要有 3 条路线
- 文本定位 (Text Spotting) :分为两种,但阶段和双阶段
评价指标-字符评价
- 以字符 (文字和标点符号) 为单位的统计和分析,适用于通用印刷体、手写体类非结构化数据的OCR应用评测
- 字符召回率:预测正确的字符总数占总符号的比例
- 字符准确率:预测正确的字符占总测试结果的比例
- F-socre:字符召回率和字符准确率的综合评价指标
评价指标-文本段评价
- 以字段为单位的统计和分析,适用于卡证类、票据类等结构化程度较高的 OCR 应用评测
- 字段召回率:完全识别准确的字段总数占总字段的比例
- 字段准确率:完全识别准确的字段占总测试结果的比例
- 最小编辑距离:编辑距离是针对二个字符串(例如英文字)的差异程度的量化量测,通过替换、插入、删除,将预测结果修正为gt所需操作步骤,最小编辑距离表示最少操作步数
- 全图编辑距离:整个文本段的编辑距离
- 归一化编辑距离: 编辑距离除以字符串长度