首页 > 分享 > 基于机器学习的落叶松毛虫发生面积预测模型

基于机器学习的落叶松毛虫发生面积预测模型

花匠小妙招
2024-09-14 08:26

落叶松毛虫(Dendrolimus superans)属鳞翅目枯叶蛾科，在我国主要分布于北京、东北、内蒙古以及新疆北部地区，是我国东北林区的主要害虫之一。落叶松毛虫虫害发生时部分针叶被吃光，严重时会导致落叶松林成片枯死[1]。据不完全统计, 我国落叶松毛虫每年发生面积约达200万hm2~280万hm2, 严重地影响了林木生长和森林资源的安全，同时也使得木材和林产品产量急剧下降，对林业生产造成巨大损失[2]。如果能够有效的对害虫发生趋势做出预测，就可以提早掌握虫害的发生动态，提前预备和采取相应的防治措施，更有效地控制灾害，进而减少虫害造成的损失。因此，研究和发展生物技术和信息技术，及时准确地对落叶松毛虫发生趋势进行预测预报，对实现森林灾害综合管理模式和林业经济的可持续发展具有非常重要的意义[3]。

早在20世纪50年代初期我国就开始了对危害较严重的病虫害(包括松毛虫)进行了调查研究，并在各大城市建立了相应的病虫害测报站。20世纪80年代至90年代, 我国森林病虫害防治技术迅速发展，包括多元统计分析在内的数学理论及模型被广泛应用于林业虫害的预测预报中，如薛贤清[4]、梁其伟[5]曾分别利用逐步回归以及逐步判别法来预测马尾松毛虫虫害的发生；李天生等[6]应用双重筛选逐步回归法对气象因子与松毛虫虫害发生关系进行分析；吴敬等[7]通过概率回归估计法建立数量化模型对松毛虫发生面积及危害程度进行预测。在此期间，由于计算机的不断发展，许多基于计算机的病虫害管理系统及专家系统也应运而生，如叶文虎等[8]研究建立的松毛虫综合管理信息系统；王淑芬等[9]研发的马尾松毛虫防治决策专家系统等；进入21世纪，随着科技的进步与发展，林业科技信息化建设得到推进，包括“3S技术”等许多科学有效的方法被应用于病虫害的预测中，如王霓虹等[10]以松毛虫为研究样本研发的基于WebGIS的森林病虫害预测预报专家系统；高倩[11]利用Logistic回归模型对落叶松毛虫虫害进行预测等，令我国森林病虫害的预测预报工作得到了较大改善，也极大地推动了我国森林病虫害测报技术向着科技化、现代化的方向发展。

对害虫发生趋势预测的传统方法主要有期距预测、有效积温预测、多元线性回归预测、以及有效基数预测等[12-13]。由于这些预测方法都属线性预测，而虫害的发生受气候、天敌以及林相等多种因素的影响，是一种复杂的非线性关系[13]，因而用线性预测方法预测害虫发生趋势不科学。寻求一种合理且更为准确的预测方法就显得尤为重要。

近年来机器学习方法在预测、识别及数据挖掘方面研究成果较好，此类方法具有泛化能力，可以通过给定的数据进行自我学习，适合处理单因变量、多自变量且关系比较复杂的非线性问题，并且预测准确度较高[14]。本研究运用广义回归神经网络(GRNN)、多层前馈神经网络(MLFN)以及支持向量机(SVM)3种机器学习方法对落叶松毛虫发生面积进行预测，并与传统的多元线性回归预测方法进行比较，以确定机器学习在虫害预测中的可行性，以期寻求对于落叶松毛虫发生趋势预测的有效方法。

1. 材料与方法

1.1 数据来源

本研究所采用的28组虫害及气象数据来源于杨淑香等的研究[15], 其中从1985—2012年的落叶松毛虫虫害资料来源于内蒙古呼伦贝尔市森林病虫害防治站，从1984—2012年每旬的气象资料来源于呼伦贝尔市气象局。

1.2 预报因子的选择与确定

预报因子的选择直接影响着病虫害发生面积的预测准确率，因而在进行预测之前将搜集到的各类气象因子(包括上年6月开始到当年5月的旬平均温度、旬平均最高温度、旬平均最低温度、旬极端最高温度、旬极端最低温度、旬相对湿度、旬蒸发量、旬降水量、旬日照和年有效积温)作为候选预报因子，利用相关法筛选出其中的相关因子，再利用逐步回归法选出与因变量关系最密切的因子作为预报因子来构建虫害预测模型。最终筛选得出落叶松毛虫发生面积的预报因子为：当年3月中旬的总蒸发量(X1)、上年7月上旬的平均最低气温(X2)、当年3月下旬的极端最低气温(X3)、上年11月上旬的平均风速(X4)。这些预报因子的选择也与落叶松毛虫的生活史吻合，由于越冬幼虫大部分于3月下旬出蛰，因此，3月下旬的最低气温对幼虫的出蛰率有直接影响。3月中旬的总蒸发量则是对幼虫体内水分变幅存在较大影响，同时，上年7月和11月是老熟幼虫结茧化蛹和越冬的时期，风速会对越冬后的迁飞造成影响，进而影响松毛虫的分布范围。

1.3 选用的预测模型 1.3.1 多元线性回归

多元线性回归是虫害预测常用的传统建模方法，是指通过对两上或两个以上的自变量与一个因变量的相关分析，建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时，以计算方程为基础研究变量之间的相关关系[16]。多元线性回归方程的数学函数表达式一般为：

Y=α0+α1X1+α2X2+⋯+αnXn (1)

式中：Y表示虫害发生面积；α0代表常数；α1, α2, …, αn为回归系数；X1, X2, …, Xn代表预报因子(即本文中选取的蒸发量、平均最低气温等)。

1.3.2 人工神经网络

人工神经网络(Artificial neural network，ANN)是一种旨在模仿人脑结构及其功能的信息处理系统，常用于解决数据量较大且关系较复杂的非线性问题，它与遗传算法、专家系统并称为人工智能的3大技术[17]。人工神经网络有很好的适应学习能力、自组织能力以及容错、容差率，在分类、优化以及预测方面应用较为广泛[18-20]。

根据神经网络内部信息的传递方向可分为两类，反馈型网络和前馈型网络，其中前馈型网络中的BP神经网络在病虫害预测方面应用较多，然而根据文献[21-23]得知，BP神经网络需要10倍于连接权的样本量才能保证预测结果的准确性，广义回归神经网络(General regression neural network，GRNN)仅需要1.0%的样本量就可以获得与BP网络同样的预测效果。由于本研究中虫害数据量较少，所以本研究采用GRNN对落叶松毛虫发生面积进行预测。同时，基于选用预测模型的多样性以及所用预测软件的易用性，本研究还利用多层前馈神经网络(Multilayer feed-forward neural networks，MLFN)进行预测。

1.3.2.1 多层前馈神经网络(MLFN)

多层前馈神经网络(MLFN)利用在实际中应用较广的反向传播学习算法进行训练[24-25]。一个MLFN包括顺序排列的神经元(图 1)，其中第一层称为输入层，最后一层称为输出层，在这两层中间还有隐含层。每个在一个特定层的神经元都与下一层的所有神经元相连接。第i层和第j层神经元间的联系通过权重ωij和第i层神经元的阈值ϑi来刻画(图 2)。第i层神经元的输出值xi通过公式(2)、(3)和(4)计算得到。

图 1 MLFN原理图

Figure 1. Structure of the MLFN

图 2 神经元i和j之间的关系

Figure 2. Connection between neurons i and j

式中:ξi代表第i层神经元；函数f(ξi)是传递函数(公式(2)之和使得所有神经元j将信号传输到第i层神经元)；ωij为权重；ϑi为阈值；ri-1为神经元i的前一层神经元的子集。

监督学习的过程会通过改变阈值ϑi及权重ωij使计算值和所求的输出值之间的平方之和差异最小化，这些均通过目标函数E的最小值实现，如公式(5)，式中x0和ˆx0是由输出神经元的计算和所求范围以及所有输出神经元运行总和组成的向量。

1.3.2.2 广义回归神经网络(GRNN)

广义回归神经网络(GRNN)最早由Specht提出[26]，一个完整的GRNN有4层，包括：输入层、模式层、求和层和输出层(图 3)[27-31]。

图 3 GRNN原理图

Figure 3. Structure of the GRNN

1) 输入层：输入层保持其相应的自动模式，直接将输入的变量传递到模式层。

2) 模式层：在模式层中其神经元数目等于训练样本的数目，并且不同的样本对应的神经元也不同。在这一层神经元的传递函数公式如下。

pi=exp[−(X−Xi)T(X−Xi)2σ2](i=1,2,⋯,n) (6)

式中：pi为模式层第i个神经元的输出向量；X为网络输入变量；Xi为第i个神经元对应的学习样本；σ为光滑因子。

3) 求和层：求和层对模式层中各神经元的输出进行算术求和以及加权求和，传递函数如公式(7)、(8)：

S=n∑i=1yijpi (j=1,2,⋯,k) (8)

式中：SD为算术求和；S为加权求和；yij为模式层中第i个神经元与求和层中第j个求和神经元之间的权重值; k为输出层神经元的数目。

4) 输出层：将求和层中两类神经元的输出相除可得到输出层中各神经元的输出结果。

1.3.3 支持向量机

支持向量机(Support vector machine，SVM)由训练集和核函数完全刻画，在模型的复杂性和学习能力之间以有限的样本信息作为基础。在线性可分二元分类中，通过寻找最优超平面，把所有样品通过最大间隔进行分类，是支持向量机的基本原理[32-36]。最优超平面不仅有助于提高模型的预测能力，也有助于减少偶尔出现的错误分类。图 4说明了最优超平面，用“红色”代表的样本类型1，“蓝色”代表样本类型-1。

图 4 支持向量确定最优超平面的位置

Figure 4. Support vectors determining the position of optimal hyperplane

SVM可以很好地应用于函数拟合问题中，本工作采用支持向量回归算法，对线性问题求得回归式：

Y=f(x)=n∑i=1(Ti−T∗i)(xi,x)+b (10)

式中：Ti和Ti*为拉格朗日乘子；xi为待预测因子向量；x为支持向量的样本子向量；b为偏置量。

对非线性问题, 要用核函数方法将原始数据映照到高维特征空间, 使其转化为线性问题求解, 可求得回归式：

Y=f(x)=n∑i=1(Ti−T∗i)K(xi,x)+b (11)

式中：K(xi, x)为支持向量的核函数。

1.4 模型的构建

由于机器学习对数值的预测完全基于现有的数据，因此，构建模型时要将数据分成两部分：训练集和测试集。训练集用于帮助模型对数据间规律进行自我学习，测试集则用于检验经过训练集训练后的模型。因此，选取80%的虫害数据组作为训练集，20%虫害数据组作为测试集。同时，为保证建立模型的合理性，训练集与测试集中数据为随机选取。本研究中随机选取了1992、1999、2000、2007、2011和2012年的落叶松毛虫虫害面积数据做为测试集，剩余年份的落叶松毛虫虫害面积数据为训练集。

采用SPSS18.0软件进行多元线性回归分析。利用Neural ToolsⓇ软件(试用版，Palisade公司，NY，USA)建立人工神经网络(ANN)模型，选择其中的GRNN及MLFN模型进行构建。采用Matlab软件建立SVM模型。并以均方根误差(Root mean square error，RMSE)作为指标来衡量多元线性回归、SVM和ANN的性能。RMSE定义如下：

RMSE=√n∑i=1(Xobs,i−Xmodel,i)2n (12)

式中：Xobs, i为实际值；Xmodel, i为预测值；n为预测样本数。

2. 结果与分析

2.1 多元线性回归预测结果

利用SPSS软件将随机选取的训练样本带入多元线性回归基本方程(式(1))中，求得落叶松毛虫发生面积回归方程，其常量与回归系数如表 1所示。

表 1 多元线性回归系数表

Table 1. Coefficients of multiple regression model

模型
Model非标准化系数
Non standardized coefficient标准系数
Standard coefficienttP 系数
Coefficient标准误差
Standard error α010.7192.4944.2970 X10.1630.0520.5463.1510.006 X2-0.6220.138-0.789-4.5170 X30.1450.050.5032.8900.01 X4-0.6110.35-0.256-1.7460.099 注：α0为常量，X1为蒸发量，X2为平均最低气温，X3为极端最低气温，X4为平均风速。Notes: α0 means constant variable, X1 means evaporation capacity, X2 means average minimum temperature, X3 means extreme minimum temperature, X4 means average wind speed.

由表 1可知，常量α0=10.719，蒸发量X1的系数为0.163，平均最低气温X2的系数为-0.622，极端最低气温X3的系数为0.145，平均风速X4的系数为-0.611。由此得到多元线性回归方程为：

Y=10.719+0.163X1−0.622X2+0.145X3−0.611X4

同时根据模型汇总表(表 2)显示，调整后R2 =0.594，说明该方程拟合度较低，通过该方程对虫害预测误差将会较大，也表明虫害的发生与气候因素之间可能并非简单地线性关系。

表 2 多元线性回归模型汇总表

Table 2. Summary sheet of multiple regression model

模型
ModelRR2调整R2
Adjusted R2标准估计的误差
Standard estimate error 10.8190.6710.5940.910 51

利用该多元线性回归方程对测试样本进行预测，预测结果如表 3所示。

表 3 多元线性回归预测结果

Table 3. Predicting results of multiple regression model

年份
Year实际值/103
hm2Actual value/103
ha预测值/103
hm2Predicting value/103 ha 19920.8000.90 19990.6670.49 20000.733-0.63 20071.0001.29 20110.760-0.16 20120.8670.15

由表 3可知，多元线性的预测效果并不理想，其预测结果与实际值都有较大差距。

2.2 ANN预测结果

Neural ToolsⓇ软件利用随机选取的训练样本进行MLFN及GRNN模型的构建，并令软件自动搜索最优模型。用训练后的模型对6组测试样本的发生面积进行预测，检验其预测效果。预测结果如表 4所示。

表 4 ANN预测结果

Table 4. Predicting results of ANN

年份
Year实际值/103 hm2
Actual value/103 haMLFN模型预测值/103 hm2
Predicting value of MLFN/103 haGRNN模型预测值/103 hm2
Predicting value of GRNN/103 ha 19920.8000.84(Good)0.52(Bad) 19990.6670.99(Bad)0.13(Bad) 20000.7330.03(Bad)0.69(Good) 20071.0001.37(Bad)1.01(Good) 20110.7600.30(Bad)0.66(Good) 20120.8670.74(Good)1.00(Good) RMSE0.400 20.256 5 注：30%容忍度下预测结果准确为Good，不准确为Bad。下同。Notes: under the tolerance of 30%, the precision of predicting results was labeled as Good, or as Bad. The same below.

由表 4可知，MLFN的RMSE为0.400 2，GRNN的RMSE为0.256 5。并且，在30%的容忍度[37]下，MLFN对6组测试样本中的两组做到了准确预测，预测准确率为33.33%。GRNN对6组测试样本中的4组做到了准确预测，预测准确率达到66.67%。由此看出，相较于MLFN，GRNN的预测准确度更高。根据图 5a、图 6a相比较可以看出GRNN的预测结果与实际结果线更为接近，其预测更准确。同时，根据图 5b、c、图 6b、c残差图显示，GRNN的异常点较少，其拟合效果更好。这都说明，GRNN的预测效果优于MLFN。

图 5 MLFN预测结果

Figure 5. Predicting results of MLFN model

图 6 GRNN预测结果

Figure 6. Predicting results of GRNN model

2.3 SVM预测结果

Matlab软件利用选取的训练样本建立SVM模型，再利用6组测试样本对建立的SVM模型进行测试，测试结果如表 5。

表 5 SVM预测结果

Table 5. Predicting results of SVM

年份
Year实际值/103 hm2
Actual value/103 ha预测值/103 hm2
Predicting value/103 ha 19920.8000.767(Good) 19990.6670.770(Good) 20000.7330.691(Good) 20071.0001.101(Good) 20110.7600.792(Good) 20120.8670.971(Good) RMSE0.077

根据表 5可知：SVM的RMSE为0.077，并且在30%容忍度下SVM模型对6组测试样本都达到了准确预测，预测准确率为100%。同时，图 7a中的点代表SVM模型预测结果，对角线代表实际虫害面积，图 7a表明SVM的预测结果与6组测试样本中的实际虫害面积均较为接近，并且根据图 7b、c可以看出SVM所描绘的点均围绕残差等于零的直线上下随机散布，这都说明SVM模型对虫害面积的预测有较好的效果。

图 7 SVM模型预测结果

Figure 7. Predicting results of SVM model

2.4 模型评估

将本研究中用到的4种预测方法进行对比，结果如表 6所示。

表 6 不同预测方法的预测效果对比

Table 6. Comparison in predicting results among varied predicting models

项目
Item实际值/103 hm2
Actual value/103 ha多元线性回归
Multiple regression modelMLFN模型
MLFNmodelGRNN模型
GRNNmodelSVM模型
SVMmodel 年份
Year19920.8000.900.840.080.77 19990.6670.490.990.800.77 20000.733-0.630.030.130.69 20071.0001.291.371.271.10 20110.760-0.160.300.470.79 20120.8670.150.740.600.97 RMSE预测准确率
Forecasting accuracy0.747 40.400 20.256 50.077 0 33.33%66.67%100% 训练时间
Training time0:00:560:00:010:00:01

根据表 6的对比结果中可以看出，3种机器学习方法的RMSE值均较大程度的低于传统多元线性回归预测的RMSE值，其中SVM模型的预测效果最好，其RMSE值最低，仅为0.077，并且在30%容忍度下其预测准确率高于MLFN及GRNN模型，达到100%，同时，SVM模型的训练时间较短，仅为1 s。因此，SVM模型对于落叶松毛虫虫害的预测更有实际应用的前景。

3. 结论与讨论

本研究结果显示，利用传统的多元线性回归方法对虫害面积的预测拟合度较低，预测误差较大。相较之下，3种机器学习算法在预测虫害发生面积时表现的更为优秀，其中SVM模型的预测效果最出色，其RMSE值最低，并且在30%的容忍度下该模型的预测准确度达到100%，在预测时间方面，SVM模型较其余预测模型也具有一定优势。另外，本研究中还采用了MLFN和GRNN两种人工神经网络模型，由于人工神经网络模型更多的应用于处理数据样本较大的运算，而对于预测虫害发生面积这类的小样本问题时则容易出现过拟合现象，会导致预测效果出现较大偏差。其中，MLFN模型训练时间较长，并且其对部分年份虫害发生面积的预测偏差较大，导致预测准确率及RMSE均较低，并不适用于虫害的预测。GRNN模型虽然可以处理样本量较少的问题，然而其对于虫害的预测准确率及RMSE值均低于SVM模型。相较之下，SVM模型则更适合处理小样本问题[38]。因而，不论是与传统的多元线性回归相比较还是与人工神经网络模型相比较，SVM模型均表现的更为优秀，更适合应用到实际对落叶松毛虫虫害的预测中。

先前的研究中，较多采用多元统计分析对虫害发生进行预测，由于虫害的发生具有非线性变化规律，各类影响因子间相互关联且对虫害的发生影响十分复杂[39]，因而，传统的回归方法无法很好地表达自变量与因变间的关系。前人的研究结果多为一个虫害发生的范围或发生的程度，无法较精确显示虫害的发生情况，预测准确率往往也存在较大波动。因此，利用传统的线性数学模型对虫害发生进行预测存在一定的局限性。本研究克服了回归分析的不足，利用机器学习对虫害发生进行预测，较大程度的提高了预测的准确性。相关研究中，陈梅香[40]曾利用SVM模型与BP神经网络模型对梨小食心虫的发蛾高峰期和发生程度进行预测，结果表明支持向量机的预测准确率较高，且均方误差较低，此方法更有利于提高梨小食心虫发生期与发生程度的预测准确率。向昌盛等[41]也发现在对粘虫发生量进行预测时，SVM模型的预测效果更好，它可以提高害虫发生量的预测精度，更适合于非线性、小样本的害虫发生量预测。他们的研究都表明，机器学习可以对虫害进行有效的预测，且支持向量机对虫害的预测效果较好。

虽然机器学习在预测方面有着很好的应用，然而现阶段在林业虫害预测上的应用仍不够广泛，究其原因是由于林业虫害的发生受到多种因素的影响，且相关数据的收集较为困难。因而要将机器学习更好的应用到林业虫害的预测中去不仅需要更为完备的数据样本作为基础，还需要我们对于机器学习更为深入的研究与探索。