本发明涉及农业信息,更确切地说,它涉及一种针对水稻二化螟发生情况的预测方法。
背景技术:
1、水稻有害生物监测预警是水稻保护的一项基础性工作,是合理科学指导病虫害防控的前提。二化螟作为水稻生产的主要害虫之一,其幼虫会蛀入茎秆,对水稻造成枯鞘、枯心、白穗等危害,严重影响水稻产量和品质。因此,及时准确预测二化螟发生情况,对于保障粮食安全和植保部门制定有效的防控政策具有重要指导意义。
2、传统水稻虫害预测方法主要以经验预测法、实验预测法和数理统计预测法为主,存在一定的主观性,且多数情况下,构建的是预报因子与害虫之间的简单线性关系,预测结果对输入数据具有较强的依赖性。事实上,预报因子与害虫之间并非简单的线性关系,而是呈现高度的非线性。此外,水稻虫害的历史数据往往是一种典型的小样本数据,传统预测方法容易出现性能差和过拟合的问题。
3、随机森林方法在小样本分析中能够通过特征筛选识别关键特征,并以集成多棵决策树结构和随机性来降低过拟合风险,可以避免传统预测方法的不足,同时可以实现对水稻二化螟发生情况的非线性预测,具有较强的鲁棒性和抗噪声能力。但是,随机森林模型的性能对其参数设置较敏感,且模型由多个决策树集成,容易导致计算过程和结果难以解释。
技术实现思路
1、本发明的目的是针对现有技术的不足,提出了一种针对水稻二化螟发生情况的预测方法。
2、第一方面,提供了一种针对水稻二化螟发生情况的预测方法,包括:
3、步骤1、获取研究区二化螟数量信息与水稻生长发育日期信息;
4、步骤2、获取水稻生长发育期间的气象环境数据,并对气象环境数据进行标准化处理;
5、步骤3、根据水稻生长发育期日期、二化螟数量信息和气象环境数据构建数据集,并将所述数据集划分为训练集与测试集;
6、步骤4、基于随机森林模型,使用网格搜索和交叉验证来确定随机森林模型的输入参数和参数阈值,并依据评估指标来确定模型输入参数的最佳数值组合;
7、步骤5、使用随机森林模型的最佳输入参数组合分别对训练集与测试集进行二化螟累计数量预测,并将训练集与测试集二化螟累计数量预测值输出;
8、步骤6、使用评价指标分别对训练集与测试集进行评价,得到模型的拟合优度以及预测值与实际值之间的相关程度;
9、步骤7、采用测试集对二化螟累计数量趋势进行分析,实现对二化螟发生情况的预测。
10、步骤8、依据气象环境因子在随机森林模型中决策树的贡献度,对影响二化螟累计数量的气象环境因子进行排序,量化气象环境因子的重要性。
11、作为优选,步骤2中,所述气象环境数据由若干气象环境因子组成,所述气象环境因子包括空气温度、空气湿度、露点温度、土壤温度、土壤水分、风速、风向、大气压、雨量、光照强度、平均气温与相对湿度。
12、作为优选,步骤2中,所述对气象环境数据进行标准化处理,包括:通过极差标准化,消除不同气象环境因子之间的量纲差异,使得各气象环境因子处于同一数量级;标准化处理的计算公式为:
13、
14、其中,x’是标准化后的值,x是原始数据值,xmax是数据中的最大值,xmin是数据中的最小值。
15、作为优选,步骤3中,将水稻生长发育期日期作为时间序列,二化螟数量信息作为因变量,气象环境数据作为自变量;训练集与测试集的比例为7:3。
16、作为优选,步骤4包括:
17、步骤4.1、确定随机森林模型输入参数及参数取值范围;所述输入参数包括树的数量、树的最大深度、节点最小分割的样本数与叶子的最小样本数量;
18、步骤4.2、使用网格搜素,遍历步骤4.1参数网格中的每个参数组合;
19、步骤4.3、对于每个参数组合,执行3折交叉验证,所述3折交叉验证是将数据集分为3个不相交的子集,对于每个子集,以当前子集作为验证集,其余两个子集作为训练集,重复这个过程3次,每次选择不同的子集作为验证集;
20、步骤4.4、将3次验证均方根误差的平均值作为该参数组合的性能评估指标,值越小代表模型的预测性能越好,均方根误差的计算公式为:
21、
22、其中,n是样本数量,yi是第i个实际观测值,是第i个预测值,rmse是预测误差的平方的平均值;
23、步骤4.5、根据交叉验证的评估结果,选择验证集上rmse最小的组合作为随机森林模型输入参数的最佳数值组合。
24、作为优选,步骤6中,所述评价指标包括均方根误差、平均绝对误差、决定系数与皮尔逊相关系数,计算公式为:
25、
26、其中,n是样本数量,yi是第i个实际观测值,是第i个预测值,mae衡量了预测值与实际值之间的平均绝对误差;
27、
28、其中,n是样本数量,yi是第i个实际观测值,是第i个预测值,是实际观测值的均值,r2为决定系数,在0到1之间,越接近1表示模型拟合效果越好;
29、
30、其中,xi是预测值,yi是实际观测值,和分别是预测值和实际观测值的均值,r为皮尔逊相关系数,r的值在-1到1之间,其中1表示完全正相关,-1表示完全负相关,0表示无相关性。
31、作为优选,步骤8中,所述对气象环境因子的贡献度,计算公式为:
32、
33、其中,fi(j)是特征j的重要性,t是决策树的数量,nt是树t中的所有节点,v(n)是用于分裂节点n的特征,p(n)是通过节点n的样本比例,δi(n,t)是i节点n上的纯度变化。
34、第二方面,提供了一种针对水稻二化螟发生情况的预测系统,用于执行第一方面任一所述的针对水稻二化螟发生情况的预测方法,包括:
35、第一获取模块,用于获取研究区水稻生长发育期间的二化螟信息与水稻信息;所述二化螟信息包括二化螟图像信息与二化螟数量信息;
36、第二获取模块,用于获取水稻生长发育期间的气象环境数据,并对气象环境数据进行标准化处理;
37、构建模块,用于根据水稻生长发育期日期、二化螟数量信息和气象环境数据构建数据集,并将所述数据集划分为训练集与测试集;
38、确定模块,用于基于随机森林模型,使用网格搜索和交叉验证来确定随机森林模型的输入参数和参数阈值,并依据评估指标来确定模型输入参数的最佳数值组合;
39、预测模块,用于使用随机森林模型的最佳输入参数组合分别对训练集与测试集进行二化螟累计数量预测,并将训练集与测试集二化螟累计数量预测值输出;
40、评价模块,用于使用评价指标分别对训练集与测试集进行评价,得到模型的拟合优度以及预测值与实际值之间的相关程度;
41、分析模块,用于采用测试集对二化螟累计数量趋势进行分析,实现对二化螟发生情况的预测;
42、排序模块,用于依据气象环境因子在随机森林模型中决策树的贡献度,对影响二化螟累计数量的气象环境因子进行排序,量化气象环境因子的重要性。
43、第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的可执行程序,其中,在所述可执行程序运行时控制所述计算机可读存储介质所在设备执行第一方面任一所述的针对水稻二化螟发生情况的预测方法。
44、本发明的有益效果是:本发明通过获取性诱设备中的二化螟数据与气象环境数据,并将气象环境数据进行极差标准化,以消除不同气象环境因子的量纲差异,使得各气象环境因子处于同一数量级,从而有利用分析气象环境因子对二化螟发生情况的影响。在此基础上,本发明基于随机森林模型预测二化螟累计数量,引入网格搜索和交叉验证来寻找随机森林输入参数的最佳数值组合,解决随机森林模型对输入参数设置较敏感的问题。此外,本发明对影响二化螟累计数量的气象环境因子进行重要性排序,为二化螟虫害防控政策制定提供参考。与传统二化螟预测方法相比,本发明提供的针对水稻二化螟发生情况的预测方法,能够克服传统害虫预测依赖经验、效率低下、不确定性高等问题,实现对水稻二化螟时间序列的累计数量预测。
相关知识
2024年水稻病虫发生趋势分析及预测
水稻病虫害的预测预报
崇州市水稻病虫害预测和稻曲病识别模型构建
水稻主要病虫害预测预报 (优化)
基于决策树的水稻病虫害发生程度预测模型——以芜湖市为例
2019年水稻重大病虫害预测,这些病害可能发生,减产严重!
达川区:智能化系统实时远程监测水稻病虫害
2024年中晚稻病虫害发生趋势预报丨稻飞虱、二化螟、纹枯病总体偏重发生
长沙市召开2024年上半年农作物病虫害发生情况及下半年发生趋势分析会商会
基于决策树的水稻病虫害发生程度预测模型
网址: 一种针对水稻二化螟发生情况的预测方法 https://m.huajiangbk.com/newsview606105.html
上一篇: 我国为害棉花的叶螨(红蜘蛛)究竟 |
下一篇: 城市园林绿地的环境效应分析 |