V社区-机器智能技术交流-基本图像增强算法对深度学习模型结果的影响

写在前头：
经常会有人问起，为什么深度学习可以在图像各个位置，检测到相应目标或缺陷呢？这得益于卷积和池化的过程，在卷积过程中，通过对图像的特征提取，形成与卷积核相同数量级的特征图，目标特征在图中的位置无论如何变化，特征图中对应的位置也会依次变化，而池化是一种降维过程，并不会对特征图产生所谓偏移的影响，因此在一定程度上，深度学习具有平移不变性。特征提取的过程有别于传统算法的生长连通域、特征匹配、亮度测量等逻辑思维，更多的是一种“预测/推理”目标位置及类别的过程。
举个例子，在做字符识别任务时，有一个常见误区为：必须要遍历各字符出现的所有位置以及字符间的各种排列组合，才能达到高精度识别的能力。显然这个思维套用了传统方法的面积或灰度统计，以一种模板匹配的形式来完成该项任务，而在现有深度学习网络中，每次训练都会基于预训练模型上调整权重和偏差，这样做可以减少训练时间，提高模型的准确性和泛化能力，同时也适用于小样本训练集。

OCR模块的预训练模型可以直接使用

此外，为提高训练数据的丰富性，同时针对小样本场景，会对数据做一定增强操作，例如：HSV空间变换（色调、饱和度、亮度）、镜像、画布扩大、裁剪、仿射变换、噪声等。每种数据增强算法都会赋予概率值(记为x%)，此处概率指每次迭代时，会有x%的概率执行增强算法，使原图不是“原图”，从AI平台上的设置来看，VT和AI平台一样，每个增强算法的概率值应该都是30%。

VT的图像增强界面

回到主题：
我们可能会遇到在简单场景下（如识别正反的场景），论如何调整训练参数，模型虽然定位准确，却仍未能精准的分类，似乎毫无辨识能力。在下图示例中，黑线在左侧为类别0，黑线在右侧为类别1，两个目标呈水平镜像关系。

分类不准

从上述图像增强算法的清单中，可以看到有镜像操作，那么应该是算法内默认开启了数据增强功能，因此上方图中的类别0和1在镜像后特征互换，但标签未变，导致训练精度损失严重。于是，我们可以在VT的训练参数界面，打开增强按钮，选择“数据增强”，实现对数据增强的初始化配置。

在以上示例中，只需要把镜像功能的变化概率调至0，或把镜像类型更改为垂直，均可以在变动样本特征的情况下，实现合理的数据增强。由于打开数据增强后，会初始化所有增强算法，因此其他类型可以按默认值0.3重新设置。

按相同参数训练后，效果就正常了。

优化后

细心对比可以看到，数据增强接口并不在全部算法中都开放出来的，如图像分割只开放了基础参数，但其内部一定也会存在数据增强的操作，经过实验对比，也发现了一些问题，这个我们在后续文章中再讨论。
以上是近期本人在使用VM深度学习时遇到的一些小结，深度学习对数据总是具有强相关性，成像质量，标注方式和训练策略都是对数据的一种分布式调整，算法开放了图像增强接口是有一定作用的，应当在什么情况下使用则需要不断的积累。使用深度学习并不是摸盲盒，在具备一定知识基础后，要勇于实践，不断试错，当然前期应当先咨询有经验的人士参与评估，找好团队方向，最后祝大家项目顺利落地。

深度学习到底有多奇妙

28篇

什么是深度学习？

深度学习的前沿研究与应用

深度学习和传统算法在缺陷检测应用中的特点

深度学习训练工具VisionTrain1.4.1功能更新说明

模型优化方法---通用基础篇

模型优化方法---VM算法平台预测篇

模型优化方法---VisionTrain训练篇

模型优化方法---预测耗时篇

深度学习小工具之快速图像分割

深度学习小工具之标签转化工具

深度学习小工具之图像名称、标签文件内容修改工具

训练误差与泛化误差的关系

训练过程中对于误差值的理解

基本图像增强算法对深度学习模型结果的影响

使用VM深度学习功能实现模型训练与图像检索功能

智能相机-深度学习OCR训练及优化指南

一种提升OCR模型识别率的优化方法

根据实际需求找到最优方案-OCR识别篇

多分类分割任务下实现指定类别的阈值调整

多分类分割任务下的标注问题及解决思路

图像分割标注训练经验分享

基于VM界面层的多类别缺陷统计方案

VM深度学习OCR项目经验分享

【VM集成开源AI】深度学习算子模块封装

深度学习推理耗时波动现象的解决方法

【共享学习】关于深度学习显卡推理那些事儿

VM7100深度学习检测温度传感器焊点，裸针，锡珠，超盘，

深度学习缺陷检测项目经验分享

请升级浏览器版本

Chrome

Edge

Firefox