1、 Anchor base和Anchor free
1.1 Anchor base
- Anchor base,译为基于锚点的一个物体检测方法,也可以叫做基于一组预定义的框
- 模型会预测每个锚点是否存在对象,并预测需要对锚点进行的调整以更好地适应该对象
- Anchor base物体检测方法:Fast R-CNN、SSD、YOLO、RetinaNet
1.2 Anchor Free
- Anchor Free,无锚点方法则不依赖于预定义的锚点框
- 直接在图像的每个空间位置预测对象的存在或对象的特征
- CenterNet、CornerNet、FCOS 、DETR
2、NMS基本流程
非极大值抑制(Non-Maximum Suppression, NMS),是当物体检测中同一个物体最后预测出多个候选框的情况,采用NMS后可以有效解决这个问题。
- 收集所有边界框
- 根据置信度(即预测该框的概率)进行排序
- 取出最高置信度的框,与其他所有的框计算IOU
- 如果计算出某一个IOU的值,超过设定的阈值(假设是0.5),则认为这个框是重复的,则删除这两个框中置信度比较低的那一个
- 重复3-4过程,最终剩下的框全部都是预测的边界框
- 这个过程也就是说,置信度最高的那一个框永远都不会被移除,且其他的框也只会与这个框计算IOU值
3、常用的损失函数
3.1 回归
MSE:预测值与真实值差值的平方
MAE:预测值与真实值差值的绝对值
3.2 分类
CE:Cross-EnTropy,二元交叉熵,【(y标签对应的值)乘以(p预测正类别的概率值取对数)的相反数】+【1-(y标签对应的值)乘以(1-p预测正类别的概率值取对数)】的相反数,然后会累加样本数,再除以样本数的就是损失的均值
BCE:Binary Cross-EnTropy,多元交叉熵,(y标签对应的值)乘以(p预测该类别的概率值取对数)的相反数,然后会累加每个类别和样本数,再除以样本数的就是损失的均值
4、BCE和CE除了预测种类个数的区别还有其他区别吗?
BCE通常与sigmoid激活函数一起使用,适用于单个输出神经元,输出预测为正类的概率
CE通常与softmax激活函数一起使用,适用于多个输出神经元,输出每个类别的概率分布
5、两个list变成对应的字典,一个是key一个是values
6、zip怎么理解和使用
7、除了交并比(即IOU)还有没有其他计算
除了交并比(IoU)之外,确实存在其他几种方法来评估和处理目标检测中的边界框重叠情况。这些方法各有特点,适用于不同的场景和需求。以下是一些常见的替代方法:
- 交集面积(Intersection Area):直接计算两个边界框的交集面积。
- 中心距离(Center Distance):
- 计算两个边界框中心点之间的距离。
- 适用于判断边界框是否足够接近,可能用于跟踪或者一些需要边界框位置精确度的应用
- GIOU、DIOU、CIOU等变体:
- 这些是IoU的扩展版本,考虑了更多的几何因素,如边界框的尺寸、形状、中心点位置等
- 可以提供更精细的重叠度量,特别是在边界框形状和位置方面