我的OCR学习路线

Drawing 2023-04-11 18.42.57.excalidraw

本文总结自己目前对 OCR 的认识,和学习过程

什么是 OCR ?

  • OCR (Optical Character Recognition,光学字符识别)指将打字、手写或印刷文本的图像电子或机械转换为机器编码文本的过程
  • 文本检测 (Text detection)检测文本的所在位置和范围及其布局,可以使用传统的 ROI 提取实现,也可使用目标检测去实现,如 Faster R-CNN,[[FCN]]
  • 文本识别 (Text recognition)对文本内容进行识别,将图像中的文本信息转化为文本信息
  • 文本定位 (Text Spotting) :分文本检测 (Text detection) 文本识别 (Text recognition)统一到一起的简称

OCR 的方法?

  • Drawing 2023-04-11 18.42.57.excalidraw
  • 文本检测 (Text detection) :其实就是检测文本行实例,可以使用目标检测的方法,也可使用语义分割的方法
  • 文本识别 (Text recognition) :这个是 OCR 的重点,主要有 3 条路线
  • 文本定位 (Text Spotting) :分为两种,但阶段和双阶段

评价指标-字符评价

  • 以字符 (文字和标点符号) 为单位的统计和分析,适用于通用印刷体、手写体类非结构化数据的OCR应用评测
  • 字符召回率:预测正确的字符总数占总符号的比例
  • 字符准确率:预测正确的字符占总测试结果的比例
  • F-socre:字符召回率和字符准确率的综合评价指标

评价指标-文本段评价

  • 以字段为单位的统计和分析,适用于卡证类、票据类等结构化程度较高的 OCR 应用评测
  • 字段召回率:完全识别准确的字段总数占总字段的比例
  • 字段准确率:完全识别准确的字段占总测试结果的比例
  • 最小编辑距离:编辑距离是针对二个字符串(例如英文字)的差异程度的量化量测,通过替换、插入、删除,将预测结果修正为gt所需操作步骤,最小编辑距离表示最少操作步数
  • 全图编辑距离:整个文本段的编辑距离
  • 归一化编辑距离: 编辑距离除以字符串长度

学习路线

Drawing 2023-03-22 14.25.52.excalidraw