首页 > 分享 > 基于多尺度数据集的虫害检测模型

基于多尺度数据集的虫害检测模型

花匠小妙招
2024-09-15 16:57

0. 引　言

近年来，随着气候的变化、耕作栽培方式的改变和农作物复种指数的提高，农作物病虫害呈多发、频发态势，实现田间虫害的检测和识别对于作物的产量和品质至关重要[1-2]。在信息化快速发展的浪潮中，全国各级植保部门都在从传统的人工田间采样调查过渡到结合新型测报工具和物联网技术的农作物虫害数字化监测，病虫监测工具自动化研发应用取得重要进展[3-4]。目前智能监测方式主要基于固定粘虫板图像或真实田间图像[1]，应用先进的图像识别方法，实现如荔枝叶螨等荔枝害虫[5-6]、中华褐栗金龟等茶树害虫[7]、鳞翅类等田间害虫[8-9]等虫害的识别，形成了智能虫情测报灯、害虫性诱自动监测仪、害虫远程监测仪灯等多款虫害监测产品。作为实现智能虫害监测的重要环节，虫害检测模型的性能直接影响作物虫害监测任务的精确度[10-12]。在各类场景的虫害监测研究中，密集小型害虫经采集后目标虫体在整体图像中占比小、分辨率低，且存在组织遮挡现象，携带信息有限，大大增加了智能虫害监测的难度。

基于卷积神经网络的目标检测模型，具有较强的拟合和泛化性能，逐渐在虫害识别中得到了深入的应用[13-15]。传统的目标检测算法本质上是对预定义的密集锚框进行类标签的分类和盒系数的回归[16]。LI等[17]针对蚜虫图像提出CFN（coarse-to-fine network）两阶段模型，自制的数据集中mAP达到76.8%。王露[18]针对粮虫图像提出改进的Faster R-CNN算法，在特征图后增加金字塔池化模块（pyramid pooling module）融合多尺度信息，使用Focal Loss作为分类损失函数，解决数据集不平衡的问题，对单一背景和自然背景采集的粮虫图像识别任务的mAP分别达89.42%和90.12%。此类两阶段网络能有效消除复杂背景对预测结果的影响，但两阶段网络的串联会影响检测速度。MBOYA等[19]提出检测空中以果实为食的鸟改进的YOLOv5s网络，替换模型中骨干网络（backbone）、neck网络等结构，添加一个针对小目标的预测头，mAP提升4.8%。上述基于锚框的目标检测算法需要手工设计锚框大小等超参数，网络最终性能很大程度上受这些超参数设置合理性的影响[20-22]。国内外学者提出了一类基于无框的目标检测算法，随后将其应用至虫害检测领域。JIAO等[23]提出AF-RCNN网络，在区域建议生成网络中引入接受域，代替锚框从而避免复杂的超参数调整，提高训练效率，在开源数据集Pest24识别任务中mAP达56.4%，在检测精度上仍存在改进空间。

近年来，基于Transformer结构的DETR（detection transformer）[16]架构成为目标检测的新范式。这类模型在结构上摒弃了限制性能的手工设计模块，且其核心凭借注意力机制匹配查询与特征，将目标检测算法看作一个端到端的集合预测任务，同时，模型拥有更好的全局建模能力，在复杂尺度和密集的目标检测任务上展示出强大的潜力[24-27]。XING等[28]将DETR模型应用至尺度不定、形状各异的海上轮船检测任务中，在Singapore Maritime Dataset和Marine Image Dataset两个数据集上mAP@50分别达77.8%和91.4%，较CenterNet模型分别提高4.4%和2.3%。GAO等[29]将DINO模型用于风电叶片早期微小缺陷检测，经试验最终准确率达93.2%，较YOLOv6提高8%。在虫害检测领域，QI等[30]在Deformable DETR的基础上，在骨干网络中添加通道注意力机制、使用十字交叉注意力机制替换原有自注意力机制、增加了基于虫害的图像增强模块，在Pest24数据集[8]上进行验证，mAP@50达72.5%。基于Transformer结构的目标检测模型尽管在复杂尺度和密集的检测任务中逐渐崭露头角，但是在应用至下游任务的研究中，仅仅对与其核心查询匹配机制无关的模块进行修改，如骨干网络等，不能明显得到模型性能提升与新范式结构之间的联系，且试验部分单纯依赖如mAP等精度指标说明其应用效果，没有深入验证各模块在特定数据上的性能表现，影响了模型的深入研究和改进[31]。

针对小型密集虫害的监测与计数需求，进一步研究基于Transformer结构的目标检测模型其核心机制对多尺度和密集的复杂虫害检测场景性能的提升效果，本文基于真实场景采集的包含稻飞虱、蚜虫和麦蜘蛛3类小型害虫的多尺度虫害数据集（multi-scale tiny crowded planthopper-aphid-wheat mite pest detection, MTC-PAWPD），提出基于黏连率和相对尺寸的数据划分方式，将数据集分为密集分布、大尺度、中小尺度和超小尺度4个场景，对基于DINO[32]的虫害检测模型设计消融试验和对比试验，验证模型整体及其中各模块的表现性能，在此基础上进一步对提取到的特征和Query Anchor进行可视化，验证虫害检测任务性能提高与查询匹配机制之间的联系，以验证DINO模型与此类基于Transformer的目标检测模型与多尺度、密集的复杂检测任务之间的适配性。

1. 材料与方法

1.1 多尺度虫害数据集（MTC-PAWPD）

植保调查中，虫害计数统计是病虫害测报的重要参数。某些小型密集虫害，如蚜虫、麦蜘蛛和稻飞虱等，虫体占比小、分辨率低，极大地增加了统计的难度。本文利用植保调查中采集的复杂背景的小型虫害图像构建多尺度虫害数据集（MTC-PAWPD）。该数据集包含稻飞虱、蚜虫和麦蜘蛛3类共4 019张从自然田间复杂背景下采集的虫害图像，其中共有73 900个标注对象，以COCO2017格式保存。训练集、验证集、测试集按照5:2:3的比例随机划分，其中训练集1 949张，验证集769张，测试集1 164张。将MTC-PAWPD数据集与目前通用目标检测领域大规模公开数据集COCO[33]进行比较，结果如表1所示。在数据量上，农业虫害领域数据采集难度大，标注也依赖专家经验[1,34]，因此MTC-PAWPD远不及COCO，仅为其32%，属于小样本数据集。此外，比较了2个数据集标注密度相关指标，发现MTC-PAWPD数据集中图像内的标签密度远大于COCO数据集，其中MTC-PAWPD数据集的图像平均标签数是COCO数据集的2.6倍，图像最大标签数是COCO数据集的5.1倍。

表 1 MTC-PAWPD与COCO数据集标签分布对比表

Table 1. Comparison of annotation distribution in MTC-PAWPD with COCO

数据集 Dataset 图片数
Number of
images 图像标签密度
Image annotation density 平均值 Average 75%分位数
75% quantile 最大值 Max COCO 123 287 7.34 10 93 MTC-PAWPD 3 882 19.04 36 478 注：MTC-PAWPD代表本文在真实场景采集的包含稻飞虱、蚜虫和麦蜘蛛3类小型害虫的多尺度虫害数据集。 Note: MTC-PAWPD stands for our real scene-collected pest dataset which contains planthoppers, aphids and wheat mites.

为进一步对标签的重叠情况进行量化分析，基于交并比（intersection of union，IoU）的思想，提出了黏连率（overlap）如式（1）所示：

overlap = area ( bbox A∩ bbox B) area ( bbox A∪ bbox B) (1)

式中bboxA, bbox B分别表示标签A与标签B，每个 bbox i对象包含描述标签所需的原点横坐标和纵坐标x,y与标签宽和高w,h，其中原点指标签的左上角点；area( )用于计算对象的面积。分析结果如表2所示。数据集中发生标签重叠的图像约占总数的45%，共1 768张。尽管发生标签重叠的图像在总数上占比未过半，但MTC-PAWPD数据集中单张图像上标签数较通用数据集多，且目标重叠会影响传统目标检测特征提取和后处理NMS模块的性能，因此MTC-PAWPD数据集属于密集数据集。在发生重叠的标签中，约98%的黏连率分布于0～0.2之间，据此将黏连率≥0.2作为密集场景的划分依据。

表 2 数据集标签粘连率占比分布表

Table 2. Overlap distribution of annotations in dataset

黏连率
Overlap/%对应黏连率标签占比
Annotations’ percentages of different overlap/% 045.000～1046.6010～207.5220～300.7630～1000.12

对数据集的可视化分析的结果如图1所示。标签与图像的相对尺度分布存在较大差异。为进一步展开量化分析，引入标签的相对尺寸，即标签的像素面积与所在图像整体像素面积的比值。数据集标签的相对尺寸分析结果如图1a和图1b所示。计算MTC-PAWPD的90%分位数与10%分位数，分别为0.003 6与0.000 2，相对整体图像而言，均属于极小的目标，该数据集也是一个典型的小目标数据集。同时，90%分位数数值上是10%分位数的18倍，且数据集标签最大相对尺寸为1（整个图像），与10%分位数作为划分尺度空间场景的依据分别划分为大尺度（相对尺寸≥0.1）、中小尺度（0.003 6≤相对尺寸<0.1）和超小尺度（相对尺寸<0.003 6）。

图 1 标签相对尺寸与重叠情况关系图

Figure 1. Correlation of relative scale and overlapping of annotations

综上所述，数据集MTC-PAWPD采集自田间复杂背景，数据量小，但标签分布密集、有重叠，小目标多，尺度变化大。具体来说，自然采集的害虫图像相对尺寸较小，小目标害虫标签在图像中占比小、分辨率低，且常常密集分布，携带信息有限，正负样本分布不均匀，常发生同一个对象重复检测的错检现象。田间复杂背景下采集的害虫图像与实验室固定镜头采集的害虫图像相比，尺度变化较大，模型难以同时满足不同尺度的检测任务，常发生漏检现象。为了具体分析基于DINO的虫害检测模型对各个场景的检测性能，基于黏连率和相对尺寸的数据划分方式，将数据集划分为密集分布、大尺度、中小尺度和超小尺度4类场景，其划分依据分别为：黏连率≥0.2、相对尺寸≥0.1、0.003 6≤相对尺寸<0.1、相对尺寸<0.003 6。数据集划分情况见图1c，数据集中4个场景部分标注情况见图2。

图 2 数据集部分标注结果

Figure 2. Annotation visualization results of partial dataset

1.2 基于DINO的虫害检测模型

基于DINO的虫害检测模型结构大体上可分为特征提取网络、Transformer编码器-解码器和前馈神经网络3大组件，网络结构图如图3所示。DINO模型进行虫害检测时，对于输入的虫害图像，先通过特征提取网络进行特征提取，加入位置编码信息并输入至Transformer编码器-解码器进行特征编码，最后将学习得到的Query输入至前馈神经网络进行独立预测，若Query Anchor中有虫害对象，输出类别为虫害类别信息，若不含则输出为无对象，即背景类别。其中Transformer模型[35]将1个特征映射的输入x∈RC×H×W通过3个不同的全连接映射成3个不同的高维向量：查询元素、键元素和值元素。其内部机制主要依靠基于反映查询元素与键元素之间相关性的注意力权重Aqk，动态地将1个查询元素和与之关联性强的键元素对应的值元素建立连接，从而具有较好的全局建模能力。

图 3 模型结构图

Figure 3. Model structure diagram

为关注不同尺度的目标特征，深度卷积神经网络会输出不同尺度的特征映射。浅层特征映射因其更高的分辨率与更小的感受野，更关注原图中纹理等相对小尺度的特征；深层特征映射因其感受野的扩大获得更高级的语义信息，且其中池化与下采样模块会丢失小目标的空间信息，更关注原图中相对大尺度的特征信息[36]。由于虫害检测数据集目标小、尺度变化大，仅使用单一的浅层特征映射或深层特征映射检测害虫对象是不够的。模型引入多尺度特征信息，计算量增加，在小规模数据集上难以收敛。因此采用多尺度可变形注意力模块，无论输入的特征映射尺寸大小如何，1个参考点仅需与其周围邻点做注意力计算，可以充分运用多尺度特征，使其满足田间复杂背景下的密集虫害检测任务要求，如式（2）所示：

MSDeformAttn (zq,pq,xL)=M∑m=1Wm[L∑l=1K∑k=1Amlqk⋅W′mxl(ϕl(^pq)+Δpmlqk)] (2)

式中xL为输入特征，zq和pq分别为查询元素对应的查询特征和参考点坐标，M、L和K分别为注意力头的总数、输入特征所包含尺度的总数和键元素的总数，Δpmlqk和Amlqk分别表示第k个键元素在第m个注意力头、第层特征层级中与查询元素对应的采样点偏移量和注意力权值，其中Amlqk∈[0,1]且∑Ll=1∑Kk=1Amlqk=1，φl为缩放函数，ˆpq∈[0,1]2为采样点的归一化坐标，xl(φl(ˆpq)+Δpmlqk)为第k个键元素在第层特征层级对应的特征，Wm和W′m分别表示不同注意力头和不同层特征的权重系数。

在解码器中，Query需要与编码器中的各个特征映射的查询元素进行注意力计算，利用编码器提取的查询元素进行Query初始化，可以解决DETR收敛速度慢、极度依赖大数据规模的问题[37]。不同于随机初始化的Query静态生成策略，在Query生成方式上，混合查询选择策略仅将编码器输出中的位置查询用于解码器Query的初始化。其中查询元素可根据其来源拆分为内容查询（content query）和位置查询（positional query）[38]。这种方式能够避免编码器中的内容查询因其过度丢失细节干扰解码器首层Query Anchor的表现，首层Query质量大大提高，映射得到的Query Anchor更接近图像中的害虫对象，从而拥有更强的表达能力。

目标检测看作端到端的集合预测任务，模型预测准确性，依赖自身学习的虫害对象与密集Query之间的一对多匹配机制。在解码器中，Query与特征映射进行注意力计算的同时，引入前一层的Query信息参与迭代可进一步提高Query的可靠性。其中解码器本层的参数不应被反向传播影响了前几层的参数更新，应仅仅依赖前一层的初始输出及解码器输出的相对四维偏移量，以获得更加精确的Query[37]。单次前向预测框迭代策略数见式（3）。

{b(pred )=b′i=Update(bi−1,Δbi)Δbi=Decoder(bi−1),bi−1=Detach(b′i−1) (3)

式中第i层解码器的预测输出b(pred) i依靠第i−1层解码器的初始输出bi−1与该层预测得到的相对四维偏移量Δbi进行更新，bi−1通过Detach( )阻断b′i−1的反向传播得到。为进一步提升Query的可靠性，两次前向预测框迭代策略将第i层的输出同时用于更新第i+1与i+2层的Query，其数学表达式见式（4）。

{b(pred) i=Update(b′i−1,Δbi)b′i−1=Update(bi−2,Δbi−1)Δbi=Decoder(bi−1),bi−1=Detach(b′i−1) (4)

式中第i−2层解码器的初始输出bi−2通过未剔除反向传递的第i−1层输出b′i−1，参与更新第i层的预测输出b(pred) i。因此2次前向预测框迭代策略综合了前2层预测的结果，生成的Query Anchor更接近所预测的真实害虫对象。

自然环境下采集的虫害数据集其害虫目标大多较小，传统依赖锚框的目标检测模型预测时会生成大量负样本候选区域。使用Query结构替代大量候选区域的生成，可提高检测速度，但训练时负样本数量较少，在虫害检测任务中极可能出现对同一个害虫对象重复预测的问题。基于DINO的虫害检测模型采用对比去噪训练策略，增加高质量的负样本数量。对比去噪训练的核心机制为在GT（ground truth）周围生成足够多的正、负两类Query，代替原始不稳定的匹配过程。具体引入了2个超参数λ1和λ2，且λ1<λ2，生成的Query映射为四维Query Anchor后，若噪声尺度小于λ1，则认为引入的Query为正样本，与GT计算损失并继续迭代；引入的Query Anchor的噪声尺度位于[λ1,λ2)之间的，则认为引入的Query Anchor为负样本，需被预测为无对象。由于该模块主要是为了解决同一对象的重复预测问题，其超参数λ2应足够小，使生成足够多与GT相近的高质量负样本。

2. 评价指标

为验证DINO模型在田间复杂背景下的密集虫害检测任务下的性能，选用PR曲线、平均精度均值（mean average precision, mAP）作为任务的评价指标。

PR曲线指标中的P代表精确率（precision），R代表召回率（recall），精确率和召回率如式（5）和式（6）所示。

式中TP、FP、FN分别代表真正例、假正例、假负例，在害虫目标检测领域，这3个指标分别表示害虫目标存在且被检测到、害虫目标不存在但被检测到、害虫目标存在但漏检。引入交并比（IoU）判断预测对象是否是真实目标，如式（7）所示。

IoU(bi,ˆbσ(i))=area(bi∩ˆbσ(i))area(bi∪ˆbσ(i)) (7)

式中bi和ˆbσ(i)分别代表真实目标和模型预测得到的对象。当IoU大于某个最小选择阈值则代表预测对象预测正确。精确率和召回率分别反映了模型对正例的识别准确程度和对正例的覆盖能力。PR曲线以召回率为横轴，精确率为纵轴，反映了模型对这2个指标之间的权衡。PR曲线越靠近右上角，模型越符合高精确率与高召回率的需求。

平均精度（average precision, AP）是模型在不同召回率上的精度均值，代表单类别检测结果，如式（8）所示。

mAP代表多类别的检测结果，反映模型对不同害虫整体检测的性能，如式（9）所示。

式中C代表数据集所有的类别，c代表类别集合的一个子集。

此外，当IoU的最小选择阈值取0.5时得到的mAP值为mAP@50。结合本文提出的基于黏连率和相对尺寸的数据划分依据，对数据集4个场景的图像分别计算其mAP@50，得到的评价指标分别为mAP@密集、mAP@大尺度、mAP@中小尺度和mAP@超小尺度。

3. 结果与分析

本文模型依赖的环境为Pytorch1.9.0，Cuda11.1和Cudnn8.0，选用服务器CPU配置为15 vCPU AMD EPYC 7543 32-Core Processor，内存配置为30 GB，GPU配置为RTX-A5000，显存24 GB。使用在ImageNet-1K数据集经过预训练的Swin Transformer Tiny作为骨干网络，并将整个DINO网络提前在Objects365数据集[39]中进行预训练后，再在虫害数据集MTC-PAWPD上进行微调。在模型中，编码器与解码器的层数均为6层，其中隐藏层维度均为256，解码器中Query的数量为900。模型在训练阶段选取的学习率初始值为0.000 05，并简单采用当epoch进行到32轮时缩小10倍学习率的学习率优化策略，Batch Size为2。优化器选取权重衰减为0.000 1的AdamW[40]。

3.1 基于DINO的虫害检测性能分析

首先研究基于DINO的虫害检测模型在虫害数据集合上检测的迭代和收敛效果。图4a和图4b分别展示的是模型使用训练集在训练时的mAP与损失值迭代收敛图。如图所示，模型性能在训练过程呈振荡上升趋势，在40轮后，mAP的提升与损失值的下降速度均减缓，在迭代至44轮时达到的最优性能，模型训练最终完成收敛。图4c为模型在测试集上预测结果的PR曲线。如图所示，PR曲线具有右上凸的特性，且随阈值变化，曲线变化相对平滑，表示模型对阈值的变化不敏感，具有一定的鲁棒性。

图 4 模型训练过程收敛曲线与PR曲线

Figure 4. Convergence curve during model training procedure and PR curve

为了量化分析本文提出模型的实际性能，使用mAP@50指标对模型在测试集上的表现进行评估，mAP@50达到70.0%，其中，测试集在密集分布、大尺度、中小尺度和超小尺度4类场景上的mAP@50分别为42.5%、79.4%、75.7%和62.4%。结果显示，模型对4个场景的检测能力存在差异。模型对密集场景的检测精度较低，在其他3个尺度场景上均获得较优的检测性能，尤其在大尺度和中小尺度场景的检测任务上。图5是按场景在测试集中随机选取若干张图的结果展示。

图 5 不同场景虫害检测结果图

Figure 5. Results of pest detection results for different scenes

与大尺度和中小尺度场景的虫害图像相比，超小尺度图像中的害虫相对尺寸极小，且因所占像素较少，害虫结构可见度低，携带信息有限，模型对超小场景的目标检测难度高于常规大尺度和中小尺度场景。结合量化指标结果可知，模型能较好地克服复杂尺度预测困难的问题。

3.2 模型对比试验

为了分析基于DINO的虫害检测模型在虫害数据集MTC-PAWPD中的实际表现，选取了经典的目标检测器进行对比试验：基于锚的二阶段网络Faster R-CNN[41]，一阶段网络YOLOv5x，基于无锚的ATSS[20]和YOLOX[42]和基于DETR的Deformable DETR[37]，其中本试验的Faster R-CNN、YOLOv5x、Deformable DETR均将骨干网络替换为Swin Transformer，在此基础上Faster R-CNN增加了FPN模块，YOLOv5x使用BiFPN-SPP模块。对比试验的具体结果如表3所示，其中计算量指标数值大小与模型运算性能呈正相关。

表 3 本文模型与主流算法对比

Table 3. Comparison of our model and mainstream algorithms

类型
Type 模型
Model 轮数
Epochs mAP
@50/% mAP@密集
mAP@of
intensive-distribution/% mAP@
大尺度
mAP@of
large-scale/% mAP@
中小尺度
mAP@of
normal-scale/% mAP@
超小尺度
mAP@of
tiny-sclae/% 参数量
Parameters
/MB 计算量
Computation
/GFLOPs 有锚框
二阶段
Anchor-based
two-stage Faster R-CNN 12 61.9 41.9 76.7 72.2 56.7 - - 有锚框
一阶段
Anchor-based
one-stage YOLOv5x 200 66.0 - - - - 113 271 无锚框
Anchor-free ATSS 24 58.8 50.3 45.4 68.0 55.0 31.89 202 YOLOX 300 65.3 55.8 59.7 76.6 60.0 99.07 352 DETR Deformable DETR 50 67.7 42.5 79.4 75.7 62.4 40.8 199 DINO 45 70.0 44.6 89.4 77.5 62.9 48.03 242

从结果来看，DINO在mAP@50指标上达到了70.0%，性能均优于其他目标检测模型，相比Deformable DETR性能提升2.3个百分点。在收敛速度方面，DINO只需45个epochs即可实现收敛，其训练时长为YOLO类模型的1/10，且达到了更优的mAP性能。在参数量与运算量方面，DINO的参数量为48.03 MB，计算量为242 GFLOPs，在推理的效率上高于Deformable DETR。值得注意的是，与其他目标检测模型相比，DINO模型在数据分布相对较少的大尺度场景的检测性能更突出，相比Deformable DETR，mAP提升10个百分点。与此同时，模型在尺度场景的检测任务中相较其他检测模型的性能更优，因此模型能较好地克服复杂尺度预测困难的问题。

图6对比了这些模型在测试集上的可视化表现。

图 6 本文模型与主流算法的结果可视化对比

Figure 6. Comparison in visualization of our model and mainstream algorithms

在密集场景下，害虫之间分布距离较近，容易发生重叠遮挡现象，导致模型难以区分害虫边界产生大量漏检和对同一害虫对象重复预测的错检问题，而DINO模型可以有效地缓解这个问题。

在大尺度场景上，害虫目标与所在图像的面积比值较大，结构清晰可见，但因数据分布较少，对比模型容易存在明显漏检问题。在中小尺度场景下，该场景图像在整体数据集中占比较高，为自然采集的虫害检测任务中的常规尺度，所选模型均能很好地提取该尺度下害虫的特征，但该尺度下害虫目标与所在图像的面积比值偏小，正、负样本分布不均导致对比模型产生错检问题。在超小尺度场景下，害虫对象所拥有的像素数极小，所携带的细节纹理信息极少，且因卷积神经网络感受野的特性导致难以对其进行深层建模，因此该尺度场景的预测难度极大。

从结果可知DINO模型能很好地利用骨干网络提取的特征，获得相对优异的检测性能。

3.3 消融试验

将DINO模型中骨干网络、混合查询选择策略、两次前向预测框迭代策略和对比去噪训练策略4个模块对田间复杂背景下的密集虫害检测任务性能的贡献进行分析。消融试验结果如表4所示。

表 4 消融试验结果

Table 4. Ablation experiment results

Swin Transformer 混合查询选择
Mixed query selection 两次前向预测
框迭代
Look forward twice 对比去噪训练
Contrastive
denoising learning mAP
@50/% - - - - 67.1 + - - - 67.3 + + - - 68.3 + + + - 69.2 + + + + 70.0 注：“+”代表添加模块，“-”代表未添加模块。 Note: "+" represents the addition of a module, "-" represents the absence of a module.

首先，对骨干网络进行消融试验。相比卷积神经网络，采用Transformer结构的Swin Transformer骨干网络在mAP@50上提升0.2个百分点，这可能与Transformer结构能更好捕获图像的各尺度特征，并对特征与特征之间的全局建模的能力相关。接着，对混合查询选择策略与两次前向预测框迭代策略展开消融试验。混合查询选择策略主要作用于Transformer编码器与解码器之间，有选择性的仅使用编码器输出的位置特征生成解码器所需的首层Query。在Query初始化时对位置特征与内容特征采取不同的处理方式，mAP@50性能提高1.0个百分点，有效地提升了解码器首层表征能力，且首层表征能力与模型预测性能呈正相关。两次前向预测框迭代策略主要是用于解码器各层之间，在利用前一层特征进行本层特征迭代的基础上，在特征映射为Query Anchor的过程中也参考前一层Query Anchor的输出，从结果来看，该模块使mAP@50性能提升0.9个百分点。最后，对对比训练策略进行了消融试验。对比训练策略通过在编码器中加入与GT相近的负样本，缓解了中小尺度场景下因害虫对象相对尺寸较小产生的正负样本不平衡问题，减少实际检测中错检的发生，mAP@50指标上提升0.8个百分点。

综上，DINO的4个改进模块均能提升真实场景下的虫害目标检测性能，相比特征提取模块，与查询相关的混合查询选择策略、两次前向预测框迭代策略和对比训练策略模块对性能提升影响更大，基于DINO的虫害检测模型实际性能提升主要源于Transformer结构本身。

3.4 可视化试验

针对骨干网络和Neck网络的特征可视化结果如图7所示。从纵向角度来看，Swin Transformer提取的特征与传统卷积神经网络相比，相同尺度下模型具有更大的感受野，如在B2层具有一定的感知小尺度特征的能力。从横向角度来看，与B2层相比，骨干网络浅层B0层会关注更细致、更底层语义相关的特征，如害虫的触须、图案，背景中的土壤颗粒、叶片纹理等这类像素值变化频率大的细节特征，且B0层输出的特征经过由1×1卷积构成的Neck网络，可进行特征之间建模，输出具有全局语义信息的C0层，让输出高权值更集中在害虫对象内。综上，特征提取模块中，使用Swin Tranformer骨干网络使模型拥有更强的特征提取能力，Neck网络可以更高效利用骨干网络输出的多尺度特征信息。

图 7 特征提取可视化

注：Bi、Ci分别表示为骨干网络、Neck网络第i层的可视化结果。

Figure 7. Visualization results of feature extraction module

Note: Bi and Ci represent the visualization of the i-th layer of backbone and neck, respectively.

针对解码器首层Query选择策略进行可视化试验，其结果如图8所示，其中静态查询选择策略中的小红点为查询映射到图像上的二维点，单一、混合查询选择策略中的小红点为查询映射到图像上的Query Anchor的中心点，为方便表述，将其统一称为Query Point。

图 8 查询选择策略可视化结果图

Figure 8. Visualization result of query selection strategy

与静态查询选择策略相比，另外2种查询选择策略利用编码器中提取的特征信息生成解码器首层的查询，其中混合查询选择策略仅将编码器提取的位置特征用于查询生成，减少计算量。利用编码器中的特征进行查询生成，可以让解码器首层Query Point更接近图像中的害虫对象。一个害虫对象上拥有更多的Query Point，模型在预测该对象可获得的特征数越多，模型的表达能力就越强。综上，混合查询选择策略可以显著提升模型对虫害检测任务的检测性能。

对解码器最后一层的Query进行可视化，以说明前向预测框迭代策略对提升任务性能的相关性，结果如图9所示。图9a为首层采用混合查询选择策略进行Query初始化的解码器中Query迭代可视化对比情况，由图可知，经过6层解码层Query Anchor并没有发生明显迭代，这可能与首层生成的Query质量高有关。基于假设，使用静态查询生成策略进行Query初始化，结果见图9b，Query Point经迭代更贴近虫害目标。通过图9的可视化，直观说明两次前向预测框迭代策略能够提升任务性能，进一步论证了首层Query质量与模型检测性能的正相关性和该结构与虫害检测任务的适配性。

图 9 解码器Query迭代可视化结果

Figure 9. Visualization results of Query iteration in decoder

模型加入对比去噪训练策略前后结果进行可视化对比，结果如图10所示。对比去噪策略针对模型对同一个害虫对象重复预测问题的优化有效，当检测框重叠率较高的情况下，模型也能很好地对虫害对象展开预测。由表2可知，基于DINO的虫害检测模型在密集场景的虫害检测性能不及无锚框类模型。然而与Deformable DETR相比，结合可视化结果，对比去噪训练策略的加入不仅提升模型对密集场景的检测精度，还在很大程度上解决了虫害对象重复预测的问题，让模型针对虫害检测任务获得更强的特征表达能力，使模型更具实用价值。

图 10 对比去噪训练策略性能提升结果可视化图

Figure 10. Visualization of improvement of contrastive denoising learning strategy

综上，从上述可视化试验中可知，DINO模型的密集Query及相关组件有利于尺度复杂、密集分布的自然场景下的虫害检测任务，拥有准确、高效提取并运用虫害图像特征的能力。基于DINO的虫害检测模型在田间复杂背景下多尺度、密集的复杂虫害检测任务中表现出强大的泛化能力和实用价值。

4. 讨　论

由试验结果可知，基于DINO的虫害检测模型在小型密集虫害的绝大部分复杂场景上都具有极好的性能和一定的泛化能力。然而在部分场景，如密集场景中，模型检测的精度有待提高，针对试验中出现的典型错例、难例展开进一步的分析与讨论。

图11a为模型对MTC-PAWPD测试集上测试的混淆矩阵图。各分类害虫的预测精度均高于70%，且基本不存在各类害虫之间混淆的情况，模型针对本文的真实复杂场景虫害检测任务具有较好的检测识别性能，但存在将昆虫错误检测为背景或将背景误检为害虫的情况。图11b、图11c、图11 d分别展示了目标尺度稀缺、极端小尺度和极端遮挡3种造成错检的典型情况。

图 11 难例、错例分析结果

Figure 11. Plot of difficult or wrong cases

目标尺度稀缺问题是指在某类别图像中几乎不包含该尺度的图像数据，占比极小导致漏检的场景。极端小尺度是指目标与图像的比值极小导致漏检的场景，如图所示的害虫目标平均仅占整张图像的0.000 4，且其本身所占像素极少，可被利用的纹理特征贫乏，对于人工识别而言也是个极具挑战的任务。极端遮挡是指因害虫间互相重叠或作物枝叶遮挡导致害虫本体绝大部分不可见所导致漏检的场景。这3类场景都属于极端情况，参与训练的同场景图像往往较少，模型对该场景的优化难以收敛。图11e为密集场景的典型错例，图像中密集分布的虫害对象并非全为同一类别，但因相似习性害虫往往外表形态相似，类间差异小。除此之外，密集分布的害虫往往会因相互遮挡导致自身携带的可供识别的纹理信息有限，导致此类场景的虫害识别较困难。

因此针对目前自然复杂场景的虫害检测任务的瓶颈，与常规领域数据集相比，农业领域的数据集因采集困难、标注费时等因素，其规模较小，且类别分布不均。研究基于小样本学习的虫害检测模型，可以将较易获得的害虫类型作为基类，经过知识迁移，使模型在不宜获取的新类别虫害图像检测任务中获得较优的预测能力。且自然采集的虫害图像尺度不定，害虫同类样本差异大，通过研究基于小样本学习的虫害检测模型，让模型在有限的训练数据中，对同类别的害虫目标的局部区域进行建模，用于提升对极端尺度的虫害图像检测性能。

在密集场景中，DINO的对比去噪训练策略显著提升模型的检测性能，但仍略逊色于传统基于无锚框的目标检测网络。因此后续为进一步提升基于Transformer的DETR模型用于密集场景虫害检测的性能，仍需要研究融合无锚框的DETR模型，提升模型在该具体任务的检测能力和实用价值。且由于DINO依赖的注意力计算，无法胜任性能较低的实时检测场景，有待进一步的模型优化提升检测速度。

5. 结　论

本文针对实际植保中，具有挑战性的小型密集虫害的检测计数任务，构建了专用的小型虫害数据集MTC-PAWPD。本文基于黏连率和相对尺寸，提出一种划分数据集的策略，将田间实际背景采集的虫害数据集MTC-PAWPD划分为密集分布、大尺度、中小尺度和超小尺度4个场景；基于DINO模型，设计一系列验证和消融试验，并辅以对提取特征和Query的可视化，验证DINO模型对于虫害检测任务的性能提升的优化机制。主要结论如下：

1）DINO模型可用于多尺度虫害检测任务。基于DINO的虫害检测模型在MTC-PAWPD测试集上的mAP@50达70.0%，与其他主流模型相比性能提升2.3个百分点；在4个复杂场景上检测性能均较好，mAP@50分别达42.5%、79.4%、75.7%和62.4%。

2）多尺度虫害检测任务性能提升，与DINO模型其核心查询机制密切相关。结合消融与可视化试验，DINO的混合查询选择策略，利用编码器中的特征进行查询生成，可以让解码器首层Query Point更接近图像中的害虫对象，从而在预测对象时可利用更多特征，提升模型的表达能力；前向预测框迭代策略可以让解码器后几层的Query Point更接近图像中的害虫对象；对比去噪训练策略引入高质量负样本，很大程度上解决了模型对虫害对象重复预测的问题。

DINO模型的密集Query及相关组件有利于尺度复杂、密集分布的自然场景下的虫害检测任务，拥有准确、高效提取并运用虫害图像特征的能力，认为在虫害检测领域，基于Transformer的DINO模型具有强大的研究前景和研究意义。