首页 > 分享 > 基于深度学习的田间害虫自动识别技术综述

基于深度学习的田间害虫自动识别技术综述

花匠小妙招
2024-11-08 03:48

基于深度学习的田间害虫自动识别技术综述
Survey of Automatic Identification of Field Pests Based on Deep Learning

1. 引言

农业是人类衣食之源、生存之本，是一切生产的首要前提。作为农业大国，农业是我国重要的基础产业之一，与无数人的生活息息相关。而影响农作物生长的主要因素之一即为虫害。因此，进行害虫的有效防治工作刻不容缓。其中，进行田间害虫的自动识别监测对减少农药使用、有效防治害虫有着重要意义。而害虫种类的识别与发生数量的获取是精准预测的基础。在传统的农业害虫防治工作中，人工防治是主要力量，但这种依靠人力的传统方法存在诸多弊病，如费时、费人力、需要先验知识、识别不精准等。

从2003年起，国内研究人员开始采用支持向量机(Support Vector Machine, SVM)、K最近邻(k-Nearest Neighbor, KNN)分类算法、AdaBoost等算法等基于传统机器学习的算法检测目标害虫 [1] ，虽有所成效，但由于在传统模式下学习的是人工预先设计好的特征，而自然状态下的害虫形态、大小、背景等都具有很强的不固定性，所以在实际田间检测中鲁棒性不高，泛化能力差，无法获得好的应用与推广 [2] 。

近年来，基于深度学习的害虫识别模式兴起。利用深度学习强大的分析能力，学者们开始在分析和识别等方面对机器学习算法进行优化。基于深度学习的害虫识别方法能自动逐层提取特征，识别速度和精确率优于传统机器学习 [1] ，对复杂背景下的目标检测来说效果较理想。基于深度学习的研究为害虫识别进程做出了重要贡献，也为日后进一步实现及时有效的害虫防治工作打下了坚实的基础。本文对近年来基于深度学习的害虫识别技术进行了总结比较，以期为后继研究与技术开发奠定基础。

2. 研究进展概述

近年来，随着深度学习快速发展，基于深度学习的一系列害虫识别技术也逐步发展，笔者为了解近年来该研究方向的研究进展，分别在中国知网检索平台和ScienceDirect检索平台对2010~2023年间有关传统机器学习和深度学习的害虫识别方向的学术出版文章进行检索，并进行数据统计与做出有关总结。

其中，中国知网检索式为(主题% = (害虫识别)*(深度学习 + 机器学习)) AND (发表时间Between (‘2010’, ‘2023’))，统计结果如图1所示；Science Direct检索式为(pest identification AND deep learning) OR (pest identification AND machine learning) AND (2010~2023)，统计结果如图2所示。

在2010~2023年间：中国知网共有相关文章124篇，ScienceDirect平台共有相关文章2956篇，二者数量在2010~2015年都维持在较低水平，2016年后数量激增。而这一发展，正顺应了深度学习的发展趋势。2016年被称为人工智能的元年。在这一年初，AlphaGo战胜李世石成为人工智能的里程碑事件 [3] ，其核心技术深度学习受到人们的广泛关注和研究，基于深度学习的害虫识别技术相关科技论文发表数量在此后的节节攀升也符合了该发展趋势。

Figure 1. Number of papers on CNKI

图1. 中国知网论文数量

Figure 2. Number of papers on Science Direct

图2. Science Direct论文数量

3. 基于深度学习的害虫识别技术

深度学习(DL)的概念最早是2006年由Hinton等人 [4] 在Science上发表的“Reducing the Dimensionality of Data with Neural Networks”文章中提出的，随后掀起了工业界和学术界的研究浪潮。深度学习是通过一定的训练方法来训练样本数据，从而得到包含着多个层级的深度网络结构的机器学习的模型。深度学习逐渐发展到今天，最主要的成果之一就是推出了许多重要的算法模型。在害虫识别方面，常应用的深度学习网络模型有深度自编码器(DAE)、卷积神经网络(CNN)等。在此基础上发展的基于深度学习的目标检测算法大致分为两类：1) 基于区域建议的目标检测方法：如Faster R-CNN等；2) 基于回归的目标检测方法，如YOLO算法，SSD算法等。如图3所示。

下文将从卷积神经网络、基于稀疏编码的自编码神经网络、以YOLOv5为例的YOLO算法、SSD目标检测算法、Faster R-CNN算法五方面对害虫识别技术的应用进行介绍。由于卷积神经网络在害虫识别方向上应用较广，目前大多基于深度学习的害虫识别方法都采用了这一神经网络 [5] ，故将在卷积神经网络方面重点展开讲解。

3.1. 基于卷积运算的神经网络

卷积神经网络(CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feed forward Neural Networks)，是深度学习技术中最具代表性的网络结构之一。随着卷积神经网络飞速发展，在图片识别方面水平不断提高，其逐渐被应用到害虫识别中，并逐渐成为害虫识别领域的研究趋势之一 [5] 。CNN由输入层、卷积层、池化层、学习层和输出层构成，其中，输入层可以处理多维数据；卷积层使用卷积核进行特征提取和特征映；池化层对特征图进行稀疏处理，减少数据运算量；全连接层对提取的特征进行非线性组合以得到输出；输出层用于输出结果。该流程如图4所示。

Figure 4. Convolution operation flow chart

图4. 卷积运算流程图

程曦等 [6] 针对储粮害虫分类识别问题，引入了基于卷积神经网络的图像识别方法，大幅度简化了数据预处理过程，在识别精确度方面达97.61%；Wen等 [7] 提出一种基于卷积神经网络的自动编码器模型，对9种田间昆虫进行识别，识别率达98.1%。梁万杰等 [8] 针对水稻虫害识别问题，设计了一个10层的卷积神经网络模型，结果显示该模型在水稻害虫识别方面有很好的抗干扰性和鲁棒性。

接下来将对害虫识别中几个常用到的卷积神经网络模型与模型优化算法进行简单介绍，如图5所示。

3.1.1. 经典卷积神经网络模型

1) AlexNet模型

AlexNet是由Alex提出的一个经典的卷积神经网络 [9] 。AlexNet包含5层卷积层、3层池化层和3层全连接层。其中卷积层是AlexNet的核心，用于提取特征；池化层可以减少特征矩阵的大小，实现特征降维；全连接层可以整合卷具有类别区分性的局部信息，起到分类作用。桂便等 [10] 等采用Alexnet模型对常见的五类储粮害虫进行图像识别，当迭代次数达到1000时，正确率达到97.62%；肖小梅等 [11] 提出了一种基于改进的AlexNet卷积神经网络的害虫识别模型，去除原有的局部响应归一化层，在识别率上相比于原网络提升了1.96%。

2) ResNet模型

残差神经网络(ResNet)是由来自Microsoft Research的学者提出的一种卷积神经网络模型。它通过堆叠不同个数的残差模块，让卷积网络去学习输入和输出之间的残差，而不是期望每一个堆叠层都学习整个输出，较好地解决了梯度消失问题。鲍文霞等 [12] 针对水稻害虫图像与背景相近以及同族害虫个体差异大的问题，设计了一个轻量型残差网络模型LW-ResNet，该模型使用轻量型注意力子模块，采用无监督的学习模式，实现了模型的轻量化。雷佳云等 [13] 提出一种基于改进残差网络模型的水稻害虫识别方法，将胶囊网络嵌入ResNet卷积模型中，有效降低过拟合，提高了识别的准确率。

3) EfficientNet模型

EfficientNet模型是由轻量翻转瓶颈卷积核(MBConv)堆叠而成，通过将高维的全局特征图通过压缩操作转化为低维的特征向量，以此提取通道级的全局特征，进而用多层感知机进行非线性特征变换。卫雅娜等 [14] 提出了一种基于注意力机制与EfficientNe的轻量化水稻病害识别方法，从通道轴、空间轴两个维度去探索图像上的关键特征，该方法在水稻常见病害数据集上的识别准确率达到95.63%。

3.1.2. 卷积神经网络模型的改进优化

1) 空间金字塔池化算法

在卷积神经网络(CNN)中，通常需要输入大小固定的图片进行训练和测试。因此，对于大小不一的图片，需要经过一系列操作将其变为统一的尺寸，但这样往往会降低识别检测的精度 [15] 。而“空间金字塔池化”(Spatial Pyramid Pooling, SPP)算法，可以在卷积层和全连接层之间加入一个池化层，使任意大小的图像都能够转换成固定大小的特征向量，而不需要提前经过裁剪缩放等处理操作。因此，在害虫图像识别中有较大运用意义。谢成军等 [16] 使用3层金字塔为害虫图像特征建模，其在图像金字塔顶层、中层、底层，分别将害虫图像分为4个小图像块、16个小图像块和64个子图像块，并计算每层的特征向量。相对于传统方法，该空间金字塔池化方法可使平均识别精度提高9.5%

2) 注意力机制

注意力机制是一种能够强化重要信息和抑制不重要信息的方法。在图片识别时，如果机器能更多地聚焦于那些能体现图像特征的部分，模型就能更好的利用这些被选择过的有效信息，以提高识别精度和识别率。孙鹏 [17] 等构建基于注意力机制的卷积神经网络模型，采用具有三层尺度的注意力卷积神经网络模型，提取出具有显著特征、可以有效识别的大豆蚜虫特征。在使用相同的数据集的情况下，加入注意力机制的卷积神经网络相比于普通的卷积神经网络，识别准确率提高了6.53%。

3) Adam优化算法

Adam是一种可以替代传统随机梯度下降过程的一阶优化算法，它能基于训练数据迭代地更新神经网络权重。Adam算法和传统的随机梯度下降不同。随机梯度下降保持单一的学习率更新所有的权重，学习率在训练过程中并不会改变；而Adam会为不同的参数设计独立的自适应性学习率，从而优化学习效果。甘雨等 [18] 为加快模型的训练收敛速度，运用Adam优化算法。该算法可以保证每一次迭代学习率都有确定范围，从而减少了模型中参数的波动，使得模型收敛更为平稳。

3.2. 基于稀疏编码的自编码神经网络

稀疏表示 [19] 是近年来信号处理和模式识别领域的一个研究热点，是对传统信号表示方法的扩展。在我国，韩安太等 [20] 最先将稀疏表示思想引入害虫识别领域，其利用害虫的训练样本构造样本矩阵，通过求解最优化问题实现害虫测试样本的稀疏分解，并最终实现害虫分类识别。害虫识别中，稀疏表示的算法的步骤如图6所示。

张苗辉等 [21] 通过稀疏表示来训练害虫模型，然后提害虫样本的特征来构建稀疏字典，再从中获得测试样本的稀疏系数，根据稀疏系数进行分类识别。实验结果证明该稀疏表示算法在对害虫图像识别上有很好的识别效果。谢成军等 [16] 提出了一种基于稀疏编码的害虫图像识别方法。他首先利用大量的非标注自然图像构造过完备字典，后利用该字典实现对害虫图像的多空间稀疏表示。实验证明，与传统方法相比较，该方法使得平均识别精度提高14.1%。

3.3. YOLO算法

YOLO (You Only Look Once) [22] 是一阶段检测的代表算法，是基于回归的目标检测算法。其中，YOLOv5是2020年6月被发布在Github上的开源项目，作者暂未发表论文，项目代码网址为https://github.com/ultralytics/yolov5。如图7所示，YOLOv5的网络结构包括主干网络(Backbone)、颈网络(PANet)和预测网络(Detect)。主干网络通常由特征提取网络构成，主要作用是进行图像信息提取；颈部网络采用FPN + PAN的结构，可以进行特征的多尺度提取；预测网络通过颈网络总结的特征图来目标检测，进行目标对象的分类识别。

梁勇等 [1] 提出一种基于YOLOv5算法的水稻害虫识别方法，采用目标检测算法YOLOv5对三个场景采集到的水稻害虫图像集进行训练，实验结果表明，该网络模型具有较高的识别精确率，可用于田间害虫的智能监测；胡根生等 [23] 提出一种基于改进YOLOv5网络的目标检测方式，在颈网络中使用了FPN结构，将顶层特征与底层特征融合，该模型较好地解决了自然环境中拍摄的茶尺蠖图像不易被区分的问题，其平均精度达到92.89%。

Figure 7. Main network structure of YOLO algorithm

图7. YOLO算法主要网络结构

3.4. SSD目标检测算法

SSD [24] 是Wei Liu在2016年提出的一种基于回归的目标检测算法，是深度学习中主要采取的目标检测框架之一。SSD使用VGG-16骨干网络进行特征提取，用第6、第7卷积层代替VGG16的全连接层，并在VGG16网络末端添加了几个辅助性卷积层，用于提取不同尺度的特征图。与YOLO和Faster-R CNN不同的是，SSD采用了特征金字塔结构进行检测，即检测时采用的是多层特征图，而前两者采用的是单层特征进行检测。SSD目标检测算法流程如图8所示。

苗海委等 [25] 基于SSD算法开发了针对六类储粮害虫的在线图像采集设备，分别采取加入前景分类模块和减小前景判别与坐标回归的耦合性的两种改进方式，该模型在复杂环境下有81.36%的识别率。佘颢等 [26] 针对目前水稻害虫识别精度不高问题，提出一种基于SSD网络模型的识别方法，用特征金字塔代替SSD原有的多尺度特征图，采用组归一化(GN)进行模型训练，在针对小目标的识别上获得了较好的识别率。

Figure 8. Main process of SSD algorithm

图8. SSD算法主要流程

3.5. FasterR-CNN目标检测算法

2015年，科学家Shaoqing Ren等人提出了一种的建立在R-CNN模型和Fast R-CNN模型上的Faster R-CNN目标检测模型 [27] 。Faster R-CNN是基于区域建议的目标检测算法，检测目标时分两阶段进行，因此也称为二阶段目标检测算法。其检测的流程图如图9所示：首先将整张图片输入到卷积神经网络中，得到特征图像；再输入到RPN层中，利用Softmax分类器判断属于前景还是背景，获得精确的建议框(proposals)；在Roi Pooling层收集输入的特征图像和建议，综合提取这些信息并把它们送入全连接网络中，来进行分类回归值的预测。

陶震宇等 [28] 在有关花生害虫的识别中，采用Faster R-CNN算法对收集到的2038张图片进行目标检测，最终研究得出在该算法基础上使用ResNet-50网络模型有较好的效果。冯晋 [29] 为了验证Faster R-CNN算法是否适合水稻灯诱害虫的检测，以VGG-16和ResNet-101为主干网络分别训练了两个目标检测模型，实验证明使用ResNet-101作为主干网络的Faster R-CNN目标检测模型对水稻灯诱害虫的检测效果较好，平均准确率达到90.1%。

Figure 9. Faster R-CNN target detection algorithm flow

图9. Faster R-CNN目标检测算法流程

4. 数据集

4.1. 数据集获取

在深度学习中，网络的训练通常需要数目庞大的数据集，否则容易出现过拟合、识别不准、缺乏说服力等问题。数据集的来源主要包括三类：一类是公共数据集(如图10)，一类是人工拍摄(如图11)，一类是摄像头自动采集(如图12)。然而，在农业害虫领域，由于资源的限制，图像数据的采集难度较大，因此公开图像数据集较少。害虫识别领域迄今为止规模最大的数据集是2019年由Wu等人公布的IP102数据集 [30] ，该数据集包含了75,000张害虫样本，几乎囊括了当前常见的害虫种类。本文对提到的害虫识别数据集的获取方式、数据规模等信息进行归纳，如表1所示

获取方式

数据规模

对应文献

人工拍摄

500~5000

[5] , [13] , [23] , [24] , [32]

摄像头自动采集

500~5000

[1] , [2] , [5] , [7] , [9] , [14] , [29]

公共数据集

100~10,000

[13] , [23] , [24] , [32]

Table 1. How to get the dataset

表1. 数据集的获取方式

4.2. 数据集扩充

现有条件下，针对某一昆虫类型的公共图像数据集仍较缺乏，因此需要采用一些数据扩充方法，如平移变换、尺度变化、旋转、翻转变换、噪声扰动以及亮度调节等数据扩充方法来达到增大数据集的目的。梁勇等 [1] 为了提高水稻目标害虫检测模型的泛化能力，对训练集进行了数据增强。采用增加对比度、左右翻转、上下翻转的方式对训练集进行扩充，如图13所示。

Figure 10. Examples of manually taken pictures

图10. 人工拍摄图片示例 [31]

Figure 11. Examples of camera or industrial camera independent acquisition

图11. 摄像头或工业相机自主采集示例 [32]

Figure 12. Examples of common data sets

图12. 公共数据集示例 [33]

5. 总结与展望

害虫识别的深入研究是我国农业大国背景下的一个不容忽视的进程。当前害虫识别技术日趋成熟，从原本的人工识别逐渐向机器识别方向转变，但距离完全使用人工智能进行害虫识别仍有较长的路要走。围绕如何进行新时代背景下的害虫识别研究，学者们在深度学习、计算机视觉、卷积神经网络等新方向上进行了大胆的探索与实践。本文对近年来基于深度学习的害虫识别技术进行了归纳总结，介绍了其运用流程和发展历程以及部分学者在相关方面的研究，并展示了其各自的结果与意义。

从本文目前搜集到的资料来看，虽然众多学者对于这一新方向进行了多维的研究，但这一领域的尚有诸多问题亟待解决：① 缺少范围覆盖更广、数量级更大的害虫图像数据集；② 现有的特征提取器仍未达到边缘识别全覆盖，性能仍需优化；③ 深度学习在大量目标样本分类识别工作上仍存在缺陷与不足；④ 目标检测技术方面，可提取的特征有限，且易带来并发问题。在未来的研究中，如果能将深度学习的各类神经网络与优化算法结合起来、扬长避短，发挥各类模型的优势，实现模型有效集成，就有望设计出更多性能卓越、轻量级的网络，推动我国农业害虫识别水平更上一层楼。

总之，大数据时代下的基于深度学习的害虫自动识别技术尚处于起步阶段，虽比起传统人工手段有了诸多实际意义，但距离应用普及以及取代传统方式仍存在着较大距离。不过可以预见的是，该项技术具有巨大的发展潜力与潜在价值，在未来有望对我国农业事业做出巨大贡献。

基金项目

本文得到贵州大学引进人才科研基金(贵大人基合字(2021) 18号)的资助。

参考文献