本发明涉及属于农业智能检测与深度学习应用领域,尤其涉及一种基于改进rt-detr模型的三七花成熟度检测方法。
背景技术:
1、三七作为传统珍稀药用植物,其花穗皂苷含量显著高于根、茎、叶等部位,因而具有较高药用价值。但在不同生长阶段(采花期、结籽期、收籽期),其药用价值存在差异,准确识别三七花的成熟度对采摘机器人研发及产业链升级具有重要意义。
2、然而,在自然田间环境下开展检测仍面临多重挑战:其一,田间光照条件变化明显,且叶片与枝条的颜色与花朵接近,易干扰特征提取;其二,三七花体积较小(直径约1–3cm),常被枝叶遮挡或出现花朵聚集重叠,增加了漏检风险;其三,花期与结籽期的形态差异较为微弱,传统方法难以实现准确区分。上述因素导致检测精度不足,限制了自动化应用。
3、现有农业作物成熟度检测方法主要包括传统机器学习与深度学习两类。yolo系列等单阶段模型虽具备较快的推理速度,但在小目标、遮挡及重叠场景下检测精度有限,难以兼顾速度与准确度;faster r-cnn等两阶段模型检测精度较高,但结构复杂、运算开销大,实时性不足,难以满足农业现场应用需求。
4、因此,亟需提出一种高效、精准且具有鲁棒性的检测方案,能够在自然场景下实现对三七花不同生长阶段的精确定位与分类。基于此,本发明在rt-detr r18模型的基础上进行改进与优化,有效应对小目标检测、遮挡与易混淆阶段区分等问题,为三七花成熟度检测提供了一种兼顾精度与速度的解决思路,并为智能采摘机器人及三七产业智能化升级提供核心技术支持。
技术实现思路
1、本发明针对自然环境下三七花检测中存在的小目标易漏检、枝叶遮挡导致的误判以及花期与结籽期难以区分等问题,提出了一种基于改进rt-detr模型的三七花成熟度检测方法,该方法通过在模型结构与训练机制上的优化,能够在复杂田间场景中更为准确地完成三七花不同生长阶段的识别与定位,有效降低了漏检与误检率,同时提升了检测速度与整体精度,从而满足了智能采摘机器人在三七花成熟度判别与分类应用中的实际需求。
2、本发明提供一种基于改进rt-detr模型的三七花成熟度检测方法,包括以下步骤:
3、步骤(1)对自然环境下三七花不同生长阶段进行图像采集并制作数据集;
4、步骤(2)对rt-detr模型进行优化形成改进后rt-detr的模型;
5、步骤(3)训练改进后得到的rt-detr模型;
6、步骤(4)将模型部署到移动端获取检测结果。
7、所述的数据集制作方法如下:使用单反相机在云南三七种植园内,于上午10点至下午8点自然光照周期内,分别采用仰视(镜头仰角15°-30°)、平视(水平视角)、俯视(俯角45°-60°)三种典型拍摄角度,且在15-40cm的微距距离范围内,针对不同光照条件(强光:正午直射光、正常光:上午散射光、弱光:傍晚斜射光、暗光:树荫遮蔽光)进行拍摄。采集的图像包括三七花的三个生长阶段:采花期(花瓣舒展状态)、结籽期(绿籽初现)、收籽期(红籽成熟)。最终构建了一个包含2000张原始样本的三七花成熟度检测数据集。为平衡模型训练效率与特征的完整性,采用双线性插值法将所有图像统一缩放至640×640像素的分辨率,这一尺寸既能保留花朵的细节特征(每朵花的像素占比≥5%),又能满足gpu批量计算时的内存优化需求。
8、所述的数据集制作还包括:采用数据增强技术对数据集进行扩充。除使用经典的数据增强方法:水平、垂直翻转,随机平移外,还对图像进行了随机的颜色增强,包括噪声添加和亮度、对比度调整,以进一步提高模型的鲁棒性。通过数据增强处理,结合原始数据按照8:1:1比例将图像随机分为训练集、验证集与测试集。训练集与验证集用于模型单轮训练与结果评估,测试集用于模型最终识别效果评估。
9、所述的对rt-detr模型进行优化改进形成改进的rt-detr模型包括:在rt-detr的主干网络中使用cspnet网络代替原来的主干网络;用efficientvimblock替换了传统的卷积模块。
10、cspnet的基本思想是将网络的特征图在每个阶段进行拆分,可以用如下表示:
11、x0=[x′0,x″0]
12、通过将特征图分割,减少了每层的计算量并使得计算任务更加均衡,从而有效提升了计算资源的利用率。由于cspnet能有效减小计算量,它能够在较低计算成本下获得与传统模型相当甚至更高的精度。特别是在复杂背景下,cspnet的跨阶段特征融合策略能够减少背景干扰,同时加强多个目标之间的空间关系建模,提高检测精度。针对三七花图像中的复杂背景和目标间空间位置关系,cspnet通过减小冗余计算和优化梯度信息流,提高了在这些复杂条件下的学习能力。cspnet的设计使得它能够在保留或提高检测精度的同时,降低计算和内存的消耗,符合实时检测的需求。无论是在边缘设备、移动设备还是嵌入式设备上,cspnet都能提供高效的推理性能,确保在复杂场景中实时、精确地检测目标。
13、传统的卷积神经网络(cnn)可能会受到背景干扰,难以准确区分目标。而efficientvimblock通过引入hsm-ssd层,采用基于隐藏状态的全局信息聚合方式,将计算从传统的特征图空间转移到压缩的隐藏状态空间。这一设计显著降低了计算成本,并在保持全局依赖关系的同时,使得网络能够在复杂背景下更加精准地聚焦于目标区域,从而有效抑制背景噪声。具体来说,hsm-ssd层通过对输入特征进行线性变换和加权操作,在隐藏状态空间中进行信息聚合得到了h,通过以下公式表达:
14、
15、与传统的自注意力机制相比,efficientvimblock采用简化的全局token混合方式,减少了计算复杂度,同时提升了对目标间空间关系的建模能力。这一机制可以通过以下方式表达:首先,网络对不同位置的token进行加权求和,得到隐藏状态h,然后通过一个共享的全局隐藏状态h来进行目标间关系建模。具体的过程可以用如下公式描述:
16、xout=f(ch⊙σ(wzh))
17、此外,efficientvimblock还引入了多阶段隐藏状态融合(msf)技术,通过融合来自不同阶段的预测logits,进一步增强了网络的表示能力。具体来说,对于每一阶段的隐藏状态h(s),计算其全局表示并通过加权和得到最终的预测结果:
18、
19、efficientvimblock通过结合hsm-ssd层和多阶段隐藏状态融合,提升了在多目标检测和复杂背景下的检测能力,同时优化了计算效率和推理速度。
20、所述的对rt-detr模型进行优化改进形成改进的rt-detr模型还包括:在rt-detr的颈部网络引入content-guided attention fusion模块。
21、cga fusion旨在提升多层次特征融合的能力,从而增强模型在复杂背景和多目标检测中的表现。传统的特征融合方法(如加法或拼接)往往无法有效解决低级特征和高级特征之间的接收域不匹配问题,导致信息丢失或冗余。而cga fusion通过计算内容引导的空间加权系数,能够根据每个通道的特性动态调整低级和高级特征的融合比例,从而在融合过程中保留更多的有效信息。这一机制通过生成空间加权系数,精确地控制了低级特征(如边缘和纹理)与高级特征(如上下文信息)的结合,避免了传统方法中的信息丢失现象。为了解决梯度消失问题并加速网络学习,cgafusion还引入了跳跃连接,将输入特征直接加入到融合后的特征中,保证了信息流动性并提高了网络的学习效率。通过引入1×1卷积层对融合后的特征进行投影,最终得到了更精确且具有较低维度的特征表示,进一步优化了计算和内存开销,公式表示如下:
22、ffuse=c1×1(flow·w+fhigh·(1-w)+flow+fhigh)
23、在改进后的rtdetr中,cga fusion不仅提升了网络的特征融合能力,使其能够更高效地利用低级和高级特征,还显著提高了模型在多目标检测任务中的鲁棒性与准确度。由于这一机制能够智能地调节特征融合比例,模型在处理复杂背景时表现出更强的适应性,同时减少了计算复杂度,提高了实时检测任务中的推理速度和响应效率。
24、所述的对rt-detr模型进行优化改进形成改进的rt-detr模型还包括:在rt-detr模型的基础上,为提升模型在小目标、遮挡和目标重叠场景下的检测精度,我们对aifi模块进行了优化,采用了crossformer中的dynamicposbias-attention机制。此机制通过动态调整相对位置偏置,使得模型能够更好地应对多尺度目标的检测问题,特别是在小目标和遮挡目标的复杂场景下,显著提升了模型的检测性能。
25、crossformer引入的dynamicpositionbias(dpb)模块,作为一种新的位置编码方式,能够克服传统相对位置偏置(rpb)在固定图像尺寸上的限制。与固定图像尺寸的rpb不同,dpb能够根据图像或分组尺寸的变化动态计算位置偏置,提供更强的适应性和灵活性,尤其在处理可变尺寸的输入图像时表现出色。
26、dpb模块的核心思想是通过多层感知机(mlp)网络动态生成两个嵌入之间的相对位置偏置。具体而言,dpb根据嵌入之间的相对距离δxij和δyij,生成一个偏置矩阵,该矩阵会被加到自注意力计算中,优化模型的空间感知能力,公式如下:
27、bi,j=dpb(δxij,δyij)
28、其中δxij和δyij表示两个嵌入之间的相对坐标距离,而dpb模块通过这一距离计算出相对位置偏置。
29、与传统的相对位置偏置(rpb)相比,dpb具有以下优势:
30、灵活性:dpb可以适应不同的图像尺寸或组大小,尤其是在多尺度目标的检测中,能够避免固定位置编码导致的性能瓶颈。
31、高效性:dpb能够通过优化相对位置的计算,有效提升模型在复杂背景和多尺度环境下的目标识别能力,特别是在密集预测任务(如目标检测和实例分割)中,dpb相较于传统方法能够显著提高检测精度。
32、通过将dpb机制引入aifi模块,模型能够更精确地建模小目标和遮挡目标之间的空间关系,增强了对不同尺度目标的识别能力。结合crossformer中的cross-scaleembedding layer(cel)机制,dpb进一步优化了模型对空间特征的感知,使得aifi模块能够更好地应对复杂环境下的目标检测任务。
33、在crossformer中,dpb与自注意力机制相结合,计算方式如下:
34、
35、其中,b是由dpb模块生成的相对位置偏置矩阵,动态调整了目标间的相对位置。通过这一优化,模型在不同尺度和复杂背景下的目标检测精度得到了显著提高。
36、实验结果表明,采用dpb的rt-detr模型,在三七花的成熟度检测任务中,相较于传统方法,能够更准确地定位不同生长阶段的三七花,特别是在小目标、遮挡和目标重叠的复杂场景中,显著提升了检测精度。
37、所述训练改进后得到的改进的rt-detr模型是指:为保证模型训练速度将图像分辨率压缩为640×640像素;gpu型号为geforcertx4090,python版本为3.11,cuda版本为11.8,深度学习框架为pytorch2.0.0;采用rt-detr r18模型进行试验,选定的模型深度因子为1、宽度因子为1以及最大通道数为1024;选用sgd作为优化器,并结合余弦衰减策略调整学习率;初始的学习率为0.01,训练迭代共计200次,batchsize为8,动量设置为0.937;训练过程中所有网络均不使用预训练权重,并使用水平、垂直翻转,噪声添加等方法进行数据增强;使用上述训练参数分别对原rt-detr模型与改进后得到的rt-detr模型进行训练与优化,最终对训练结果进行对比,得出结论。
38、所述的将模型部署到移动端获取检测结果是指:在自建的三七花成熟度检测数据集上进行模型鲁棒性与泛化性评估,对rt-detr模型进行轻量化优化,并在jetsonnano等边缘计算设备上进行部署,测试网络在arm架构下的推理效率与内存占用情况。利用移动端设备(如安卓平板)搭载的摄像头实时采集三七花图像,通过wi-fi传输至部署模型的边缘设备进行实时检测,检测结果以可视化界面展示(标注花朵位置、成熟度类别及置信度),并将检测结果(包括图像、类别标签、时间戳)存储至设备本地数据库。该部署方案可实现自然环境下三七花生长阶段的精准定位与分类,为智能采摘机器人提供实时视觉决策支持。
39、与现有技术相比,采用上述技术方案的有益效果:
40、(1)针对三七花图像中的复杂背景和目标间空间关系对rt-detr模型进行多维度改进:在rt-detr的主干网络中使用cspnet替代原来的主干网络,通过跨阶段特征融合减少计算量,同时提升多个目标之间的空间关系建模能力,特别适用于复杂背景下的三七花目标检测;在卷积模块中使用efficientvimblock替换传统卷积模块,通过基于隐藏状态的全局信息聚合方式,显著降低计算成本并提升背景下目标区域的聚焦能力,优化了多目标检测的精度;在颈部网络中引入cga fusion模块,通过计算内容引导的空间加权系数,动态调整低级与高级特征的融合比例,使得多层次特征融合更加精准,进一步提高了复杂背景下多目标检测的准确度,减少了计算复杂度,并提高了实时检测任务中的推理速度和响应效率;通过将dpb机制引入aifi模块,模型能够更精确地建模小目标和遮挡目标之间的空间关系,增强了对不同尺度目标的识别能力。结合crossformer中的cross-scale embeddinglayer(cel)机制,dpb进一步优化了模型对空间特征的感知,使得aifi模块能够更好地应对复杂环境下的目标检测任务。
41、(2)本发明所提出的改进rt-detr模型与部署方案,展现出卓越的应用价值与产业应用潜力。首先,通过采用轻量化结构设计与跨尺度注意力机制,在保持较高map的同时,显著降低模型复杂度与运行延迟。类似于edgeyolo和ednet等轻量检测网络在jetson系列设备上取得的优异性能表现,本模型经过优化后适配jetsonnano等边缘平台,启用本地推理实现了高帧率实时检测;其次,模型可无缝部署于移动终端,如安卓平板,通过终端采集图像并通过wi-fi将数据传输至边缘设备,再进行可视化检测并存储,从而构建了一个完整的视觉采摘生态链。
相关知识
一种改进的花卉大棚加温系统的制作方法
基于改进ResNet
一种基于改进YOLOv5s的牡丹花品种的检测方法
基于改进YOLOv8的水稻病虫害检测方法及系统
基于改进YOLOv5s的农田辣椒病害图像识别
基于改进YOLOv5的草莓病害识别
一种基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法
基于改进YOLOv5s模型的田间食用玫瑰花检测方法
基于改进YOLO v5s模型的水稻病虫害监测系统
基于改进YOLOv7的油茶果实成熟度检测
网址: 一种基于改进RT https://m.huajiangbk.com/newsview2515582.html
| 上一篇: 三七主根、剪口、筋条、绒根等药用 |
下一篇: 多花景天三七的药用价值 |