Yolov4重大的更新，结构组件

发布时间：2024年01月10日

YOLO之父在2020年初宣布退出CV界，YOLOv4 的作者并不是YOLO系列的原作者。YOLO V4是YOLO系列一个重大的更新，其在COCO数据集上的平均精度(AP)和帧率精度(FPS)分别提高了10% 和12%，并得到了Joseph Redmon的官方认可，被认为是当前最强的实时对象检测模型之一。

yoloV4总结了大部分检测技巧，然后经过筛选，排列组合，挨个实验（ablation study）哪些方法有效，总体来说，Yolov4并没有创造新的改进，而是使用了大量的目标检测的技巧。在这里我们主要给大家看下它的网络架构：

Yolov4的结构图和Yolov3是相似的，不过使用各种新的算法思想对各个子结构都进行了改进。先整理下Yolov4的结构组件

基本组件：

CBM：Yolov4网络结构中的最小组件，由Conv+Bn+Mish激活函数三者组成。

CBL：由Conv+Bn+Leaky_relu激活函数三者组成。

Res unit：借鉴Resnet网络中的残差结构，让网络可以构建的更深。

CSPX：由三个卷积层和X个Res unint模块Concate组成。

SPP：采用1×1，5×5，9×9，13×13的最大池化的方式，进行多尺度融合。

其他基础操作：

Concat：张量拼接，维度会扩充，和Yolov3中的解释一样，对应于cfg文件中的route操作。

Add：张量相加，不会扩充维度，对应于cfg文件中的shortcut操作。

Backbone中卷积层的数量：每个CSPX中包含3+2×X个卷积层，因此整个主干网络Backbone中一共包含2+（3+2×1）+2+（3+2×2）+2+（3+2×8）+2+（3+2×8）+2+（3+2×4）+1=72。

注意：

网络的输入大小不是固定的，在yoloV3中输入默认是416×416，在yoloV4中默认是608×608，在实际项目中也可以根据需要修改，比如320×320，一般是32的倍数。

输入图像的大小和最后的三个特征图的大小也是对应的，比如416×416的输入，最后的三个特征图大小是13×13，26×26，52×52，如果是608×608，最后的三个特征图大小则是19×19，38×38，76×76。

文章来源:https://blog.csdn.net/AAI666666/article/details/135457604
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！