论文地址:Rich feature hierarchies for accurate object detection and semantic segmentation
在这部分作者强调了特征在视觉识别任务中的重要性,提出了以CNN为特征提取网络的想法。
对象检测性能的提升:
关键洞察:
预训练和微调的有效性:
计算机视觉与深度学习的结合:
这篇论文《Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation》的主要创新点和贡献可以总结如下:
R-CNN 整体工作流程详解:
使用选择性搜索(Selective Search)来选取大约2000个候选区域,也成为区域提议,简单来说就是按照某个特定的算法(选择性搜索),在原始图像中画出大约2000个框,接下来的工作全部围绕这2000个框来开展。
选择一个主干卷积神经网络(VGG、AlexNet等等)来进行特征提取,这些主干卷积神经网络在输出层之前被截断,因为我们需要的是它们的提取的特征图。
以上2000个框,就是区域提议将会经过一定的方法(论文中是仿射图形变形),将大小不一,形状不一的各个区域提议变形为CNN特征提取网络输入的形状,这样,对于大约2000个框,都能得到它的特征图,这里值得一提的是:R-CNN是对每个区域提议单独进行CNN特征提取,虽然是共享CNN特征提取网络,但是需要进行大约2000次特征提取,速度是比较慢的。
经过对之前所有区域提议的处理,现在我们获得了大约2000个特征图,每个特征图都需要经过 分类类别数 个 SVM 分类器(假设有1000个类别,就有1000个SVM分类器),每个分类器负责判断一个区域提议是否包含其对应的对象类别,输出通常是一个评分,实数值,代表该区域提议属于该SVM代表分类的可能性或者置信度,最后,假设有1000个类别,每个区域提议将经过1000个SVM分类器处理,获得1000个置信分数,通常选取最大的置信分数,且需要超过一定的阈值。
同时我们利用获得的每个区域提议的特征图,进行预测框回归,也就是对区域提议进行微调。
至此,对于每一个区域提议,我们可以获得两个结果:
对于每个对象类别,R-CNN使用非最大抑制(NMS)来合并重叠的检测结果。NMS排除那些与得分更高的检测重叠度较高的检测,从而减少重复检测。
输出最终检测结果:
经过上述步骤后,R-CNN输出每个检测到的对象的类别、置信度(由SVM得分决定)和边界框位置。
以上内容旨在记录自己的学习过程以及复习,如有错误,欢迎批评指正,谢谢阅读。