论文地址:You Only Look Once:Unified, Real-Time Object Detection
想象一下,你有一张包含多个物体的照片,比如一张客厅的照片,里面有沙发、电视和一只猫。现在,如果我们要用一个计算机程序来识别这张照片中的物体及其位置,这就是一个典型的目标检测问题。
所以,YOLO通过一次计算就能告诉我们:“在这个位置有一只猫,我有90%的把握它是猫,10%的可能是其他东西。” 这就是回归问题在YOLO中的应用。
一般来说,YOLO会预测五个值(中心x坐标,中心y坐标,宽度,高度,类别概率)。
人类视觉系统的效率:作者首先指出,人类能够迅速且准确地通过视觉系统识别图像中的物体、它们的位置以及它们之间的相互作用。这种能力使我们能够轻松地执行复杂任务,例如驾驶汽车。
计算机视觉的挑战:作者强调,如果能开发出快速且准确的目标检测算法,那么计算机将能够在没有特殊传感器的情况下驾驶汽车,为残疾人提供实时场景信息,甚至实现通用的、响应灵敏的机器人系统。
现有目标检测系统的局限性:
YOLO的提出:鉴于现有方法的这些局限性,作者提出了YOLO,这是一种全新的目标检测方法。 YOLO将目标检测视为一个单一的回归问题,直接从图像像素到边界框坐标和类别概率的映射。
目标检测的统一化:
网络结构:
训练和优化:
实时性能:
这篇论文《You Only Look Once:Unified, Real-Time Object Detection》的主要创新点和贡献可以总结如下:
YOLO的工作流程中,会将原始图像划分为S*S个网格,然后在每个网格中去预测每个预测框和类别,关于这句话的理解,需要详细解释一下:
首先,划分为S*S个网格,每个网格属于一个”责任区域“,并不是”预测区域“,所谓”责任区域“指的是:如果某个物体的中心点落在某个网格内,那么对于这个物体的边界框预测和类别预测将是由这个网格负责,它可以在整个图像上完成预测工作,并不局限于自己的这个网格区域。
因此,如果存在某个物体跨越了多个网格,也是没有问题的,因为这个物体的中心点一定是在某个网格内的,它的预测任务将是由这个网格负责。
以上内容旨在记录自己的学习过程以及复习,如有错误,欢迎批评指正,谢谢阅读。