赋能智慧农业生产,基于YOLOv5开发构建农业生产场景下油茶作物成熟检测识别系统

发布时间:2024年01月11日

AI赋能生产生活场景,是加速人工智能技术落地的有利途径,在前文很多具体的业务场景中我们也从实验的角度来尝试性地分析实践了基于AI模型来助力生产生活制造相关的各个领域,诸如:基于AI+硬件实现农业作物除草就是一个比较熟知的场景,对于作物生产采摘场景我们则比较有所涉及,本文的主要目的就是填补这块的空白,以油茶作物采摘场景下的油茶作物成熟检测为切入点,基于目标检测模型来开发构建自动化的油茶作物成熟检测识别系统,这里是开篇,主要是基于YOLOv5来开发实现的实验性质的项目,在实际落地的时候离不开硬件端和控制端的组合,我们这里则主要是偏向软件模型的实现,首先看下实例效果:

在前文我们已经进行了相关的实践,感兴趣的话可以自行移步阅读即可:

《赋能智慧农业生产,基于YOLOv3开发构建农业生产场景下油茶作物成熟检测识别系统》

《赋能智慧农业生产,基于YOLOv8全系列【n/s/m/l/x】开发构建农业生产场景下油茶作物成熟检测识别系统》

本文是选择的YOLOv5中最为轻量级的模型来进行开发,YOLOv5是一种快速、准确的目标检测模型,由Glen Darby于2020年提出。相较于前两代模型,YOLOv5集成了众多的tricks达到了性能的SOTA:
yolov5主要分为以下几部分:
Input
Backbone
Neck
Head
Input部分主要是集成了强有力的自动化数据处理和数据增强技术,可以自动padding原图自动计算最优anchor设定,采用了Mosaic数据增强融合了CutMix数据增强的方法,Mosaic数据增强由原来的两张图像提高到四张图像进行拼接,并对图像进行随机缩放,随机裁剪和随机排列。使用数据增强可以改善数据集中,小、中、大目标数据不均衡的问题,在源头端创造了足够广泛、丰富有代表性的数据集,在模型训练过程中可以降低对GPU资源的消耗量,因为随机增强技术的加持对于不同尺寸的目标或者是不均衡类别目标的检测识别能力都有所提升。
Backbone部分主要包含:Conv、C3、SPFF,Conv卷积层由卷积,Batch Normalization和SiLu激活层组成。batch normalization具有防止过拟合,加速收敛的作用。C3包含了3个标准卷积层,数量由配置文件yaml的n和depth_multiple参数乘积决定,经历过残差输出后去掉了卷积模块,激活函数换成了SiLU。
Neck部分主要是SPPF和PAN,SPPF(Spatial Pyramid Pooling - Fast )改进了原始的SPP模块,使用3个5×5的最大池化,代替原来的5×5、9×9、13×13最大池化,多个小尺寸池化核级联代替SPP模块中单个大尺寸池化核,从而在保留原有功能,即融合不同感受野的特征图,丰富特征图的表达能力的情况下,进一步提高了运行速度。PANet改进了FPN模块,在FPN的基础上又引入了一个自底向上(Bottom-up)的路径。经过自顶向下(Top-down)的特征融合后,再进行自底向上(Bottom-up)的特征融合,这样底层的位置信息也能够传递到深层,从而增强多个尺度上的定位能力。
Head部分主要用于检测目标,分别输出20*20,40*40和80*80的特征图大小,对应的是32*32,16*16和8*8像素的目标。

接下来简单看下数据集:

训练数据配置文件如下:

# Dataset
path: ./dataset
train:
? - images/train
val:
? - images/test
test:
? - images/test

# Classes
names:
? 0: immature
? 1: mature

时间有限,这里选择的是最为轻量级的n系列的模型,yaml文件如下:

# YOLOv5 🚀 by Ultralytics, GPL-3.0 license

# Parameters
nc: 2 ?# number of classes
depth_multiple: 0.33 ?# model depth multiple
width_multiple: 0.25 ?# layer channel multiple
anchors:
? - [10,13, 16,30, 33,23] ?# P3/8
? - [30,61, 62,45, 59,119] ?# P4/16
? - [116,90, 156,198, 373,326] ?# P5/32

# YOLOv5 v6.0 backbone
backbone:
? # [from, number, module, args]
? [[-1, 1, Conv, [64, 6, 2, 2]], ?# 0-P1/2
? ?[-1, 1, Conv, [128, 3, 2]], ?# 1-P2/4
? ?[-1, 3, C3, [128]],
? ?[-1, 1, Conv, [256, 3, 2]], ?# 3-P3/8
? ?[-1, 6, C3, [256]],
? ?[-1, 1, Conv, [512, 3, 2]], ?# 5-P4/16
? ?[-1, 9, C3, [512]],
? ?[-1, 1, Conv, [1024, 3, 2]], ?# 7-P5/32
? ?[-1, 3, C3, [1024]],
? ?[-1, 1, SPPF, [1024, 5]], ?# 9
? ]

# YOLOv5 v6.0 head
head:
? [[-1, 1, Conv, [512, 1, 1]],
? ?[-1, 1, nn.Upsample, [None, 2, 'nearest']],
? ?[[-1, 6], 1, Concat, [1]], ?# cat backbone P4
? ?[-1, 3, C3, [512, False]], ?# 13

? ?[-1, 1, Conv, [256, 1, 1]],
? ?[-1, 1, nn.Upsample, [None, 2, 'nearest']],
? ?[[-1, 4], 1, Concat, [1]], ?# cat backbone P3
? ?[-1, 3, C3, [256, False]], ?# 17 (P3/8-small)

? ?[-1, 1, Conv, [256, 3, 2]],
? ?[[-1, 14], 1, Concat, [1]], ?# cat head P4
? ?[-1, 3, C3, [512, False]], ?# 20 (P4/16-medium)

? ?[-1, 1, Conv, [512, 3, 2]],
? ?[[-1, 10], 1, Concat, [1]], ?# cat head P5
? ?[-1, 3, C3, [1024, False]], ?# 23 (P5/32-large)

? ?[[17, 20, 23], 1, Detect, [nc, anchors]], ?# Detect(P3, P4, P5)
? ]
启动训练计算后,终端输出如下所示:

等待训练完成后来详细看下结果详情。

【数据分布可视化】

【混淆矩阵】

【Precision曲线】
精确率曲线(Precision-Recall Curve)是一种用于评估二分类模型在不同阈值下的精确率性能的可视化工具。它通过绘制不同阈值下的精确率和召回率之间的关系图来帮助我们了解模型在不同阈值下的表现。精确率(Precision)是指被正确预测为正例的样本数占所有预测为正例的样本数的比例。召回率(Recall)是指被正确预测为正例的样本数占所有实际为正例的样本数的比例。

【Recall曲线】
召回率曲线(Recall Curve)是一种用于评估二分类模型在不同阈值下的召回率性能的可视化工具。它通过绘制不同阈值下的召回率和对应的精确率之间的关系图来帮助我们了解模型在不同阈值下的表现。召回率(Recall)是指被正确预测为正例的样本数占所有实际为正例的样本数的比例。召回率也被称为灵敏度(Sensitivity)或真正例率(True Positive Rate)。

【F1值曲线】
F1值曲线是一种用于评估二分类模型在不同阈值下的性能的可视化工具。它通过绘制不同阈值下的精确率(Precision)、召回率(Recall)和F1分数的关系图来帮助我们理解模型的整体性能。F1分数是精确率和召回率的调和平均值,它综合考虑了两者的性能指标。F1值曲线可以帮助我们确定在不同精确率和召回率之间找到一个平衡点,以选择最佳的阈值。

【PR曲线】
精确率-召回率曲线(Precision-Recall Curve)是一种用于评估二分类模型性能的可视化工具。它通过绘制不同阈值下的精确率(Precision)和召回率(Recall)之间的关系图来帮助我们了解模型在不同阈值下的表现。精确率是指被正确预测为正例的样本数占所有预测为正例的样本数的比例。召回率是指被正确预测为正例的样本数占所有实际为正例的样本数的比例。

【Batch实例】

离线推理实例如下:

感兴趣的话都可以自行尝试下!

文章来源:https://blog.csdn.net/Together_CZ/article/details/135503953
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。