一种提升OCR模型识别率的优化方法
本文介绍了一种容易被忽视的OCR模型优化方法

本文所述的OCR模型分为字符定位(即文本定位)和字符识别两种,根据“模型优化方法---VM算法平台篇”所介绍的:字符识别错误,大概率是由于字符定位不准导致。极少情况是由于识别的字符形态特殊,如激光焊字符,需要重点训练字符识别模型。

在做项目时,可能会遇到这种情况,即使通过“模型优化方法”系列介绍的方法:1.增加样本。2.调整标注。3.增加迭代...等等,发现字符仍无法稳定识别,定位框有较大歪斜,且loss曲线难以收敛,如下图:




那么首先要了解字符定位的功能。

从标注上来看,字符定位是通过矩形框进行标注,类似目标检测,只不过需要两边空出半个字符。


也就是说字符识别与目标检测一样,只是一种将box框传输给字符识别模块的方式,而字符识别只是对box框内的内容做预测:


通过查阅深度学习训练说明文档的内容,可知算法最低可检出占比1.31%的目标,那么字符定位应该差距不大,可以暂用2.63%来计算。

回到VM,通过自建ROI来查看字符大小,这里我习惯用像高计算:字符像高/max(样本水平分辨率,样本垂直分辨率)>2.63%。【注:当然这个数值只是一个测试参考,具体数值应当与算法规定的patch大小有关。】


计算所得为2.27%,那么这张图需要提前做裁剪(1936*1216->1350*720),以提高字符占比,然后再做相应训练,测试效果后会发现模型性能已有大幅提升。

这里最好使用VM的最新版本,目前VM4.2的字符定位模块,同时开放了置信度和平均分数,在调试的时候更方便。

版权声明:本文为V社区用户原创内容,转载时必须标注文章的来源(V社区),文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:v-club@hikrobotics.com 进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
上一篇

多分类分割任务下的标注问题及解决思路

下一篇

多分类分割任务下实现指定类别的阈值调整

评论请先登录 登录
全部评论 0
Lv.0
1
关注
36
粉丝
13
创作
47
获赞
所属专题
  • 什么是深度学习?
  • 深度学习的前沿研究与应用
  • 深度学习和传统算法在缺陷检测应用中的特点
  • 深度学习训练工具VisionTrain1.4.1功能更新说明
  • 模型优化方法---通用基础篇
  • 模型优化方法---VM算法平台预测篇
  • 模型优化方法---VisionTrain训练篇
  • 模型优化方法---预测耗时篇
  • 深度学习小工具之快速图像分割
  • 深度学习小工具之标签转化工具
  • 深度学习小工具之图像名称、标签文件内容修改工具
  • 训练误差与泛化误差的关系
  • 训练过程中对于误差值的理解
  • 基本图像增强算法对深度学习模型结果的影响
  • 使用VM深度学习功能实现模型训练与图像检索功能
  • 智能相机-深度学习OCR训练及优化指南
  • 一种提升OCR模型识别率的优化方法
  • 根据实际需求找到最优方案-OCR识别篇
  • 多分类分割任务下实现指定类别的阈值调整
  • 多分类分割任务下的标注问题及解决思路
  • 图像分割标注训练经验分享
  • 基于VM界面层的多类别缺陷统计方案
  • VM深度学习OCR项目经验分享
  • 【VM集成开源AI】深度学习算子模块封装
  • 深度学习推理耗时波动现象的解决方法
  • 【共享学习】关于深度学习显卡推理那些事儿
  • VM7100深度学习检测温度传感器焊点,裸针,锡珠,超盘,
  • 深度学习缺陷检测项目经验分享
相关阅读
  • [共享学习]VM之角度纠正问题
    2024-03-07 浏览 0
  • 机器视觉菜鸟指南
    2024-02-29 浏览 0
  • 基于C++OpenCV实现VisionMaster中的“直线边缘缺陷检测”
    2024-03-04 浏览 0

请升级浏览器版本

您正在使用的浏览器版本过低,请升级最新版本以获得更好的体验。

推荐使用以下浏览器