1. 图像检索原理
图像检索主要分为图像的表示学习和分类器注册两部分。图像的表示学习就是通过构建网络模型实现图像的特征表示,分类器注册就是将表示学习网络输出的图像特征向量输入分类器进行分类器注册。使用VM实现图像检索前也需要进行模型训练和分类器注册。
图像检索和图像分类的区别:图像分类是直接训练一个固定类别数的分类器模型;图像检索是训练一个图像表示模型,然后针对不同的检索库注册不同的分类器模型,从而避免了针对不同检索库需要训练不同网络模型的麻烦,提升网络模型的泛化能力。
2. 基于VM的图像检索方法
2.1 打标签
可以使用VMTrain1.4.0来进行数据集打标签工作,添加图片是对单张图片进行打标,添加文件夹是对多张图片批量打标签。打标签的结果如图所显示。
2.2 模型训练
模型训练有三种环境可以选择:本地训练(需要支持深度学习加速的NVIDIA显卡和CUDA环境)、云服务器训练和本地服务器训练。训练参数:训练迭代次数(可以根据数据量来调整)、基础学习率(可以控制模型的收敛速度)、版本、剪枝比例(模型压缩手段,可以根据模型性能和精度来权衡调整)、数据增强(数据集扩充手段,用于丰富数据量,防止过拟合)。参数设置完毕,点击开始训练。训练结束在指定为文件夹下会生成bin文件(模型权重文件)。
2.3 注册图像
在VM中使用DL图像检索模块中的Gallery管理中的注册图像按钮进行图像注册,可以单张图像注册,也可以按文件夹注册(可以针对不同的检索库注册不同的Gallery,执行时按需要加载gall文件)。
2.4 图像检索
图像检索方案如图所示,主要使用DL图像检索模块进行图像检索。
参数配置:需要加载训练好的模型文件(VisionTrain训练得到的bin文件)和注册好的Gallery文件(gall文件)。
2.5 检索结果