一种提升OCR模型识别率的优化方法
本文介绍了一种容易被忽视的OCR模型优化方法

本文所述的OCR模型分为字符定位(即文本定位)和字符识别两种,根据“模型优化方法---VM算法平台篇”所介绍的:字符识别错误,大概率是由于字符定位不准导致。极少情况是由于识别的字符形态特殊,如激光焊字符,需要重点训练字符识别模型。

在做项目时,可能会遇到这种情况,即使通过“模型优化方法”系列介绍的方法:1.增加样本。2.调整标注。3.增加迭代...等等,发现字符仍无法稳定识别,定位框有较大歪斜,且loss曲线难以收敛,如下图:




那么首先要了解字符定位的功能。

从标注上来看,字符定位是通过矩形框进行标注,类似目标检测,只不过需要两边空出半个字符。


也就是说字符识别与目标检测一样,只是一种将box框传输给字符识别模块的方式,而字符识别只是对box框内的内容做预测:


通过查阅深度学习训练说明文档的内容,可知算法最低可检出占比1.31%的目标,那么字符定位应该差距不大,可以暂用2.63%来计算。

回到VM,通过自建ROI来查看字符大小,这里我习惯用像高计算:字符像高/max(样本水平分辨率,样本垂直分辨率)>2.63%。【注:当然这个数值只是一个测试参考,具体数值应当与算法规定的patch大小有关。】


计算所得为2.27%,那么这张图需要提前做裁剪(1936*1216->1350*720),以提高字符占比,然后再做相应训练,测试效果后会发现模型性能已有大幅提升。

这里最好使用VM的最新版本,目前VM4.2的字符定位模块,同时开放了置信度和平均分数,在调试的时候更方便。

版权声明:本文为V社区用户原创内容,转载时必须标注文章的来源(V社区),文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:v-club@hikrobotics.com 进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
上一篇

多分类分割任务下的标注问题及解决思路

下一篇

工程经验系列:视觉定位(很干,请自备饮料)

评论请先登录 登录
全部评论 0
砖业调参侠
5
创作
5
粉丝
7
获赞
相关阅读
  • 浅谈visionMaster应用感受及优缺点。
    2022-06-13
  • 海康机器人“悉灵杯”课题研究活动-入围公布
    2022-05-31
  • 浅谈visionMaster 通讯的应用(非常好用)
    2022-06-16
  • IDP5104 PDA产品开箱体验和使用分享
    2022-05-30
  • 一篇文章教会你如何计算镜头延长环
    2022-06-08

请升级浏览器版本

您正在使用的浏览器版本过低,请升级最新版本以获得更好的体验。

推荐使用以下浏览器