病虫害预测模型比较(精选八篇)
随着全球经济一体化节奏的加快, 市场竞争越来越激烈。在这激烈的竞争环境中, 有效的财务预警系统能帮助企业及早规避风险, 避免遭受更大的损失, 提高企业竞争力。当前被广泛应用于财务预警研究的模型主要分为传统统计模型和人工智能模型两类。
传统的统计模型包括多元判别分析模型 (MDA) 和对数回归模型 (LogisticRegression) 等, 其中以MDA和对数回归模型应用最为广泛。统计模型最大的优点在于具有明显的解释性, 而存在的缺陷是过于严格的前提条件, 如两者都对变量之间多重共线性敏感, 且MDA要求数据服从多元正态分布和同协方差等, 当样本数据不满足这些条件时分类误差就会比较大。
随着信息技术的发展, 人工智能和机器学习的一些分类和预测的算法也被引入到金融信用风险评估领域中来, 主要研究方法有神经网络、决策树以及支持向量机。
神经网络是由大量的简单处理单元相互联结组成的复杂网络系统。神经网络具有一些统计方法无法比拟的优点, 如:对数据分布的要求不严格;非线性的函数映射方式;具有良好的容错性、自适应性和很强的泛化功能等。
决策树是一种自顶向下的分类方法, 它通过对一组训练样本的学习, 构造出决策型的知识表现。与神经网络相比, 决策树更容易被人理解。它的优点主要有:对数据准备要求不高, 允许离群值的存在;速度快、精度高、生成模式简单。决策树适合对定类数据进行分析。
支持向量机 (SupportVectorMachine, SVM) 是在统计学习理论的基础上发展起来的一种新的机器学习方法。它基于结构风险最小化原则, 尽量提高学习机的泛化能力, 具有良好的推广性能和较好的分类精确性。另外, 支持向量机算法是一个凸优化问题, 局部最优解一定是全局最优解, 这些特点都是包括神经元网络在内的其他算法所不具备的。
本文选取2006—2009年中国上市公司的年度数据为研究样本, 主要对人工智能模型中的神经网络模型、决策树模型和SVM模型进行对比研究, 并进行行业细分, 对比同行业样本建模与不同行业样本建模的精确度, 研究行业因素对三种人工智能模型精确度的影响。
2 财务困境预警模型的构建及预测比较
2.1 样本的抽取
本文研究目的之一是研究行业因素对模型精确度的影响, 因此本文分三种情况进行建模。三种抽样原则如下:
(1) 首先选择房地产行业进行单独研究。由于房地产行业被特别处理的上市公司样本有限, 选定中国A股市场在2006—2009年来自房地产行业的被特别处理的10家公司 (样本组) 和没被特别处理的10家公司 (控制组) 作为建模样本, 被特别处理的5家公司和没被特别处理的15家公司作为测试样本, 共40个样本。
(2) 接着选择对来自不同行业的公司进行研究。考虑到要和房地产公司进行对比, 所以在样本数量上保持一致, 选定中国A股市场在2006—2009年来自不同行业的被特别处理的10家公司 (样本组) 和未被特别处理的10家公司 (控制组) 作为建模样本, 被特别处理的10家公司和未被特别处理的10家公司作为测试样本, 共40个样本。这里以行业为标准一一配对, 对样本组和控制组之间由于行业特征的差异带来的模型偏差做一定的控制。
(3) 最后对 (1) 和 (2) 中的样本进行混合研究, 把 (1) 和 (2) 中的建模样本共40个作为新模型的建模样本, (1) 和 (2) 中的测试样本共40个作为新模型的测试样本, 共80个样本。
本文选取的样本以公司ST发生日为基准日, 选取其ST前两年的资料进行研究。
2.2 预警指标的选取
借鉴前人相关的研究成果和根据数据可得性原则, 本文分别从偿债能力、盈利能力、营运能力、成长能力几方面选择了12个财务指标, 具体如表1所示。
2.3 模型的建立及预测效果检验
(1) 神经网络
由于神经网络自学习能力和非线性映射能力很强, 输入变量间是否存在多重共线性对数据处理结果的影响不大, 因此在构建神经网络模型时没有进行变量筛选, 而仅仅使所选财务比率尽可能包含比较多的信息, 力图从多方面反映企业财务状况。
在神经网络模型中, 把建模样本作为训练集, 把测试样本作为预测集, 采用单隐层的BP神经网络进行训练。输入层的输入变量为前文提到的12个财务指标, 共7个节点;输出层有一个节点, 输出1代表上市公司被特别处理, 输出0代表上市公司没被特别处理。输入层和隐层之间的传递函数取正切函数。
对来自房地产行业的公司、来自不同行业的公司和两者的混合样本进行研究的结果如表2所示。
(2) 决策树
由于决策树属于非参数化的自上而下的归纳学习算法, 所以对于模型不必对变量进行筛选, 选取的指标为前文的12个指标, 把样本分为ST和非ST两个目标类别。对三类样本的ST前两年数据分别建立决策树, 共得到3棵决策树。经过对各决策树进行分析, 得到总资产报酬率、净利润增长率、总资产增长率、净资产收益率、速动比率对预测企业是否会被特别处理含有较高的信息量。
对来自房地产行业的公司、来自不同行业的公司和两者的混合样本进行研究的结果如表3所示。
(3) SVM模型
采用逐步判别法对变量进行筛选。筛选开始时模型中没有任何变量, 每当引入一个“最重要”的变量进入判别函数时, 同时也考虑先前引入判别函数的变量的判别能力是否随新变量的引入而变得不显著了, 如果确实如此, 则从判别函数中把该变量剔除, 直到判别中没有不重要的变量需要剔除, 而模型外也没有重要的变量可引入时, 逐步筛选结束。对三类样本三年共9个样本集分别进行逐步回归, 最后经过筛选得到的指标为流动比率、速动比率、资产负债率、净资产收益、总资产报酬率、每股收益、总资产周转率、净利润增长率。
对指标进行筛选之后, 进入SVM建模, 这里SVM类型选择C-SVC (s=0) , 应用RBF核 (t=2) 作为支持向量机的核函数。
对来自房地产行业的公司、来自不同行业的公司和两者的混合样本进行研究的结果如表4所示。
(4) 三个模型预测效果综合比较
为了更加直观地进行对比, 把表2、3、4综合起来得到表5如下。
由表5的实证结果可见:
1) 样本行业因素对模型预测精度的影响: (1) 样本行业因素对神经网络和决策树的影响明显, 以房地产行业样本 (样本一) 建模的预测准确率明显高于以不同行业样本 (样本二) 建模的预测准确率。把样本一和样本二混合组成样本三进行建模, 预测准确率有所提高, 但仍明显小于以房地产行业样本 (样本一) 建模的预测准确率。 (2) 样本行业因素对SVM模型的影响比前两个模型要小, 以样本一和样本三建模的预测准确率相当, 以样本二建模的预测准确率较小。
2) 从整体的预测精度来看, 决策树的预测精度大致优于其他两种模型。
3 结束语
财务危机预测或者破产预测在实际应用中有巨大的价值, 如果能正确预测出公司将来财务会出现问题, 可有效避免投资者和贷款方的损失。随着信息技术的发展, 人工智能和机器学习的一些分类和预测算法的应用发展迅速, 其在财务危机预测中的应用有着重大的现实意义, 本文运用其中的神经网络、决策树和支持向量机模型进行财务危机预测。
本文考虑到不同行业的财务比率存在着一定的差异, 有目的地选择了三类样本 (房地产行业样本、不同行业的样本、房地产行业样本与不同行业样本的混合) 分别进行建模, 预测结果表明, 样本行业因素对于神经网络和决策树影响明显, 同行业样本建模预测精度明显高于混合行业建模预测精度;样本行业因素对SVM模型的影响较前弱;从整体的预测精度来看, 决策树的预测精度大致优于其他两种模型。
参考文献
[1]吴世农, 卢贤义.我国上市公司财务困境的预测模型研究[J].经济研究, 2001 (6) :47-55.
[2]王春峰, 万海晖, 张维.基于神经网络技术的商业银行信用风险评估[J].系统工程理论与实践, 1999 (9) :24-31.
[3]杨淑娥, 黄礼.基于BP神经网络的上市公司财务预警模型[J].系统理论与实践, 2005 (1) :12-18.
[4]AMIR F ATIYA.Bankruptcy prediction for credit risk using neuralnetwork:a survey and newresults[J].IEEETrans.NN, 2001, 12 (4) :929-935.
[5]W HBEAVER.Financial ratios as predictors of failure[J].Journalof Accounting Research, 1966 (Supplement) :71-111.
[6]WHBEAVE.Market prices, financial ratios, and prediction of failure[J].Journal of Accounting Research, 1968 (Autumn) :67-92.
根据相同立体结构中的各部分只需一个旋转矩阵就能将两者叠合在一起的基本原理,对原有的结构比较方法作了改进,使其比较速度得到很大提高.尤其是对相似蛋白质结构的比较,速度的提高更为显著.由于在蛋白质天然构象的一致性分析中,模型结构之间的比较是其计算时间的.瓶颈,因此本法对提高一致分析方法的计算效率有着重要的意义.
作 者:徐建平方慧生 相秉仁 XU Jian-ping FANG Hui-sheng XIANG Bin-ren 作者单位:徐建平,相秉仁,XU Jian-ping,XIANG Bin-ren(中国药科大学分析测试中心)
方慧生,FANG Hui-sheng(中国药科大学生命科学与技术学院,南京,210009)
[关键词] 旅游需求预测 EM ARIMA
一、研究回顾
准确的旅游需求预测对于旅游部门的产品开发具有重要意义。从当前的研究看,单变量时间序列模型是定量预测旅游需求的一种重要方法。单变量的时间序列预测模型又分化出多种,主要包括移动平均模型、自回归模型、指数平滑模型、综合自回归移动平均模型。自20世纪80年代,不同旅游需求预测精度的比较研究开始出现。Martin and Witt,Gonza`lez and Moral,Kulendran and King,Kim and Song,Kulendran and Witt等利用不同国家的数据对这些研究方法的精确程度进行了比较。从这些研究成果可知,不同学者对于各种预测技术的评价结果并不相同,甚至相互对立。因而,哪一种预测技术更适合于旅游需求预测,还需要更多的案例的比较。
从学者所用的分析对象来看,至今中国还没有作为目的地国或客源国进入学者研究的视野,这与中国作为世界重要的旅游目的地国和旅游客源地国的地位显然不符。中国作为世界旅游大国,入境旅游市场的发展轨迹明显地表现出与其他国家不同的特征。以中国入境旅游市场的发展过程为对象比较不同预测技术的预测效果,不仅对旅游需求预测技术的选择与改进具有重要理论意义,而且对于指导中国入境旅游市场的开发也具有重要现实意义。
综合自回归移动平均模型(ARIMA)和指数平滑模型(ES)是单变量时间序列预测模型中两种最重要的预测模型,本文主要对这两种预计模型预测效果进行比较。
二、预测模型介绍与数据收集
1.ARIMA模型
ARIMA模型预测法是一种重要的时间序列预测技术,广泛地应用于时间序列的分析中。但从前文的回顾知,学者之间对于该方法预测效果的评价相差极大。本文把该方法作为主要分析对象。该模型的一般形式如下:。
其中,yt为时期t的样本数据,B为向后位移算子,B(yt)=yt-1Δ为差分算子,d为差分的阶数,Δd=(1-B)d。
为自回归算子,p为自回归的阶数;为移动平均算子,q为移动平均的阶数;εt为时期t的扰动项,μ为与均值有关的常数。p,d,q参数的确定是模型识别的关键。等参数利用“残差平方和最小”标准确定。
2.ES模型
指数平滑法是把趋势变化与无规律变化分离开来的一种预测方法,有学者发现,当描述时间序列的各构成部分随着时间缓慢变化时,该方法有最好的预测效果。本文把该方法作为AVIMA预测效果的重要比较对象。具体的指数平滑预测模型有多种变形,本文利用霍尔特(Holt)的双系数指数平滑模型。设时间序列y1,y2,…,yn具有线性趋势,该模型的具体形式为:yt+τ=at+btτ。
其中,
α为水平的加权参数,0≤γ≤1;γ为趋势的加权参数,0≤γ≤1。α越大,更大的权重给予当前的观测值,水平则提高的较快;反之,更大的权重给予以前的观测值。γ越大,更大的权重给予当前的斜率估计;γ越小,较大的权重给予以前的斜率估计。二个参数之间又有一定的内在联系,α较大,则γ一般较小;反之,α较小,则γ一般较大。
3.数据收集
本文以中国四大入境旅游客源国日本、美国、英国、澳大利亚为研究对象。因为日本是中国在亚洲的最重要客源国,代表亚洲国家游客在中国的发展变化趋势;美国是中国在美洲的最重要客源国,代表美洲客源市场在中国的发展变化趋势;英国是中国在西欧的最重要客源国,代表西欧客源市场在中国的发展变化趋势;澳大利亚是中国在亚太地区最重要的客源国,代表亚太地区客源市场在中国的发展变化趋势。所收集的数据期间从1981年~2005年。本文把1981年~2005年的期间分为二个阶段,第一阶段从1981年~2002年,第二阶段从2003年~2005年。第一阶段数据用于预测模型参数的估计,第二阶段用于事后预测效果检验。所有数据来自于中国统计年鉴。
三、模型估计结果
1.ARIMV模型
从日本、英国、美国、澳大利亚四个国家到中国旅游人数序列图、一阶差分序列图、二阶差分序列图,以及二阶差分的自相关系数知,四个序列都为二阶差分平稳序列。从而确定差分参数都为d=2。从二阶差分序列的自相关系数知,四个序列都在滞后一期或二期后迅速下降为0,然后围绕0上下波动,说明四个模型的移动平均部分的阶数不超过2阶。从差分序列的偏自相关系数知,四个序列也都在滞后第一期或第二期迅速下降,并围绕0上下波动,由此判断模型的自回归阶数也都不超过2阶。
注:小括号内数值表示T统计量,**表示在0.05水平上显著,*表示在0.1水平上显著.X2在自由度为8,显著性水平为0.01的临界值为15.09.上面4个Q统计量都服从自由度为8的X2分布,在0.01水平上,都不显著
分别对ARIMA(1,2,0),ARIMA(0,2,1),ARIMA(1,2,1),ARIMA(2,2,0),ARIMA(0,2,2),ARIMA(2,2,1),ARIMA(1,2,2),ARIMA(2,2,2)模型进行参数估计,并利用残差平方和(SSE)最小和残差通过Box-Ljung的Q统计量检验两个标准选择出最优模型。由此得到日本、英国、美国、澳大利亚四个国家到中国旅游人数的ARIMA模型估计结果如表1所示。
从表1的结果可知,四个国家共同的特征是,序列都经过二阶差分才达到平稳。除此之外,日本、英国、美国三个国家比较相似,他们的自回归阶数相同,都为2阶。澳大利亚国家与这三个国家差异性较大。
2.ES模型
指数平滑法参数估计利用SPSS11.5软件进行。软件中提供的格子搜寻技术使参数α、γ的估计变得相当方便。为了得到使残差平方和(EES)达到最小的α、γ值,格子搜寻技术利用试错法寻找二个参数的最优结合。格子搜寻技术中,每个参数以0开始,以1结束,每次增加0.01,这样共形成101×101=10201个模型,其中使残差平方和达到最小的α、γ值被记录,此参数即为预测序列的模型参数。
表2为利用SPSS软件中指数平滑技术中的格子搜寻技术得到的四个国家的指数平滑参数。从表中可知,日本、美国、英国三个国家在中国的入境旅游人数发展情况比较相似,α较大,而γ较小。日本和英国的α值为1,而美国的α值为0.97,说明这三个国家每年到中国的入境旅游人数主要与最近期的旅游人数有关系,而与以前的旅游人数基本没有关系。而较小的γ值说明,每年旅游人数增长的趋势与过去时期的增长趋势有较大关系。澳大利亚国家每年到中国的旅游人数的变化规律与前三个国家差异较大,α值相对较小、而γ值则较大。这说明与前面三个国家相比,澳大利亚国家每年到中国的旅游人数的水平与最近期的旅游人数关系较小,而与较前时期的旅游人数的关系较大;但是增长趋势却主要与最近期的增长趋势有关系。
从上面两种预测模型的估计结果可知,日本、英国、美国三个国家到中国的入境旅游人数变化的轨迹比较相似,而澳大利亚国家旅游人数的变化轨迹与这三个国家的差异性较大。
四、二种预测技术事后预测效果的比较
利用三种评价标准对四个国家旅游人数的预测效果进行事后检验,检验期为2003年~2005年。预测方法采用有条件最小二乘法,估计的初始值设定为序列开始值。检验标准包括均方误差方根(RMSE),绝对平均误差MADE,相对平均误差MAPE。计算公式如下:
表3为二种方法预测的结果对比。从表3可知,三种评价标准得到的结果基本一致。对于日本和美国两个国家的旅游人数,利用指数平滑技术的误差小于利用综合自回归移动平均技术的误差,而对于英国和澳大利亚两个国家的旅游人数,利用指数平滑技术的误差却大于利用综合自回归移动平均技术的误差。从MAPE的评价结果比较,除了两种方法在日本旅游人数的预测结果相差较大之外,在其他三个国家的预测结果基本一致。这说明,指数平滑技术预测方法和综合自回归移动平均技术预测方法并没有明显的优劣之分。
比较四个国家1981年~2005年期间旅游人数的实际值、ARIMA模型预测值、ES模型预测值的比较。预测值与实际值差异较大的点为1989年、1998年。由于这两年中国的旅游人数不符合正常的历史发展规律,因而利用历史规律进行的预测必然与实际相差较大,这也是2003年~2005年的预测值与实际值存在较大差异的主要原因。由此可以得出,ARIMA模型和ES模型作为利用单变量时间序列的历史数据对未来进行预测的模型,只能对具有规律性的历史趋势进行预测。时间序列的规律性越强,预测的准确度越高;时间序列的规律性越弱,预测的误差越大。不能对某一特殊事件的短期影响进行预测是单变量时间序列预测模型的共同不足之处。
参考文献:
[1]Martin, C A S F Witt.Accuracy of Econometric Forecasts of Tourism[J]. Annals of Tourism Research, 1989,16: 407~428
[2]Gonza′lez,P,P Moral. An Analysis of the International Tourism Demand in Spain[J]. International.Journal of forecasting.1995,11: 233~251
[3]Kulendran,N ,M L King. Forecasting International Quarterly Tourist Flows Using Error-Correction and Time-Series Models[J]. International Journal of orecasting.1997,13::319~327
[4]Kim S,H Song. Analysis of Inbound Tourism Demand in South Korea: A Cointegration and Error Correction Approach[J].Tourism Analysis.1998,3:25~41
[5]Kulendran N,S F Witt. Cointegration versus Least Squares Regression[J].Annals of Tourism Research,2001,28:291~311
[6](美)平狄克,鲁宾费尔著.钱小军译.计量经济模型与经济预测[M].北京:机械工业出版社, 1999:295~361
1 材料与方法
1.1 资料来源
2010年1月-2013年4月义乌市乙类传染病疫情资料来自中国疾病监测信息报告管理系统。人口资料来自统计局。
1.2 方法
对2010-2012年义乌市乙类传染病流行趋势进行描述性统计分析和按月发病率的日平均建立ARIMA、GM (1, 1) 和组合预测模型, 预测2013年1-4月发病率并与实际进行比较。
1.3 统计分析
使用DPS7.05软件进行ARIMA时间序列、GM (1, 1) 和组合预测模型分析, SPSS19.0进行相关系数计算。
2 结果
2.1 疫情概况
2010-2012年义乌市共报告乙类传染病12 888例, 其中2010年5 302例, 2011年5 292例, 2012年2 294例。2010-2012年的总人口数为3 704 229人, 总发病率为347.93/10万。
2.2 时间分布
从时间分布看, 呈现逐年下降的趋势, 2010年1月-2013年4月的月发病率中位数为29.90/10万, 月发病率日平均中位数为0.96/10万。
2.3 ARIMA时间序列模型分析
用DPS7.05软件对2010-2012年乙类传染病的月发病率的日平均进行ARIMA模型拟合, 根据多次拟合, ARIMA (1, 1, 1) 相对较好, 得拟合方程:
曲线相关r (曲) =1- (Q/Lyy) , 其中Q为实际值与拟合值差的平方和。
2.4 GM (1, 1) 灰色模型分析
用DPS7.05对2010-2012年乙类传染病进行灰色模型分析, 得χ (t+1) =-55.16e-0.031t+56.07, r (曲) 为59.07%。预测的MAPE为15.50%, MSPE为9.33%。
2.5 组合模型
2.6 三种模型和预测比较
从ARIMA (1, 1, 1) 、GM (1, 1) 和组合模型比较, ARIMA (1, 1, 1) 的r (曲) 最大, 但在预测2013年1-4月的乙类传染病发病率中, GM (1, 1) 相对较好。见表1。
3 讨论
在卫生统计研究中, 需要从大量的数据中寻找出隐藏的规律, 最好能够用数学模型表示出来[1]。不同的预测模型各有其优点和缺点, 组合预测模型综合利用每种预测方法提供的有用信息, 对所组合的各单项预测方法取长补短, 是提高预测精度的最佳方法之一, 在当前预测领域是一个研究热点[2]。而基于数据挖掘的组合预测模型可以从原始数据中挖掘出更多的信息, 有利于解决不同情况下的实际应用问题[3]。
构建传染病时间序列模型有很多方法, 也各有所长, 最常见的模型为ARIMA时间序列和灰色模型。ARIMA时间序列分析因突出时间序列暂不考虑外界因素影响, 当外界发生较大变化时, 往往会有较大偏差, 因而时间序列预测法对于中短期预测的效果要比长期预测的效果好[4], 同样GM (1, 1) 模型也不太适宜作长期预测[5]。此文用ARIMA、灰色模型和二者的组合模型对2010-2012年义乌市乙类传染病进行建模, 并进行比较, 得出虽然灰色拟合模型不如ARIMA模型和组合预测模型, 但在预测2013年1-4月的乙类传染病发病率时, 灰色模型的优势超过了ARIMA时间序列和组合预测, 所以对于有多因素影响的传染病疫情, 还需要进行多因素分析, 并不是把模型按既定的方法组合一下, 就能够取得最优效果。
参考文献
[1]管总平, 陈芳, 吴卫红, 等, 基于组合预测模型对门诊量的预测[J].中国医院统计, 2009, 16 (3) :226-230.
[2]郭秀英.预测决策的理论与方法[J].化学工业出版社, 2010.
[3]张世强.基于数据挖掘的组合预测模型的建模方法[J].中国卫生统计, 2009, 26 (5) :470-471.
[4]刘晓东, 景睿, 孟祥臻, 等.ARIMA模型对中国入口死亡率预测的研究[J].中国卫生统计, 2008, 26 (5) :630-631.
关键词:经济管理,预测模型,优缺点
引言
经济预测是预测的一个分支, 是指以准确的调查统计资料和经济信息为依据, 从经济现象的历史、现状和规律性出发, 运用科学的方法, 经过对经济活动的各个方面情况的调查, 获得了大量的资料、数据和信息, 通过对这些资料、数据、信息的整理、分析和研究, 不仅可以对经济活动的现状做出恰当的定性、定量结论, 深化对经济活动内在规律的认识, 而且还能够结合经济现象的历史状况, 运用科学的方法, 对经济现象未来的发展前景进行测定。预测是各级领导和经济管理工作者制定政策, 做出决策, 编制计划及进行科学管理的重要依据, 经济预测的定义已经显示了它在经济建设中的重要意义。而在进行预测的过程中, 最重要的是预测模型的选择.本文着重研究了经济预测中常用的逐步回归分析模型、偏最小二乘回归分析模型, BP神经网络分析模型, 灰色预测GM (1, 1) 模型和组合预测模型, 并对它们的优缺点进行了比较。
一、逐步回归分析
在实际经济问题中, 人们总是希望从对因变量有影响的诸多变量中选择一些变量作为自变量, 应用多元回归分析的方法建立“最优”回归方程以便对因变量进行预报或控制。逐步回归分析正是根据这种原则提出来的一种回归分析方法。它从一个自变量开始, 视其对因变量Y的显著程度, 从大到小依次逐个引入回归方程.当引入的自变量由于后面变量的引入而变得不显著时, 要将其剔除, 引入一个变量或者从回归方程中剔除一个变量都称为逐步回归的一步, 每一步都要进行F检验, 直至既无不显著的变量从回归方程中剔除, 又无显著的变量可引入回归方程为止。主要步骤见文献[1]
逐步回归分析有几个问题:一是分析时, 多数自变量是组合变量, 它们之间存在有严重的多重共线性, 这会使得分析结果很不稳定, 以至有时某个因素是否选入对回归方程产生很大的影响, 使建模者左右为难;二是选中的自变量, 有时与我们所希望的有较大的出入, 从专业知识方面认为是重要的变量往往落选, 使我们很难信服地接受这样的“最优”回归模型;三是所建立的回归方程模型, 有的因素的回归系数符号反常, 这与经济背景不符合;四是考查外界影响因素时, 有些因素是不能随意去掉的;最后, 它不能对试验结果是多个指标, 对多个目标变量同时建模分析。从上述这5个问题可以看出逐步回归分析方法不能完全适应经济建模过程的需要。
二、偏最小二乘回归分析
偏最小二乘回归是一种新型的多元统计数据分析方法, 它于1983年由伍德和阿巴诺等人首次提出。近十几年来, 它在理论及应用方面都得到了迅速发展。它在一个算法下能同时实现多因变量对多自变量的一般最小二乘回归分析、数据结构简化以及两组变量间的相关分析, 特别当各变量集合内部存在较高程度的相关性时, 用该方法建模, 其结论的可靠性和整体性较好。偏最小二乘法可以有效地克服样本容量小于变量个数时进行回归建模以及多个因变量对多自变量的同时回归分析等问题。
偏最小二乘回归的基本作法是首先在自变量集中提出第一成分, t1, (t1是自变量集X= (χ1, χ2, …χm) T的线性组合, 且尽可能多地提取原自变量集中的变异信息) ;同时在因变量集中也提取第一成分u1, 并要求t1和u1相关程度达到最大。然后建立因变量y1, …yp与t1的回归, 如果回归方程已达到满意的精度, 则算法中止。否则继续第二对成分的提取, 直到能达到满意的精度为止。若最终对自变量集提取r个成分t1, t2, …tr, 偏最小二乘回归将通过建立y1, …yp与, t1, t2, …tr的回归式, 然后再表示为y1, …yp与原自变量的回归方程式, 即偏最小二乘回归方程式。具体步骤见文献[2]。
在分析中, 如果出现多重共线性的情况, 用偏最小二乘回归分析解决这个问题有很大的优势。然而, 偏最小二乘法也有它的弱点, 比如, 它对影响点是非稳健的, 一个或几个影响点的存在, 可以严重改变回归的结果。其次, 偏最小二乘回归选成分[2]的过程也存在缺点。
三、BP神经网络预报模型
BP人工神经网络理论是80年代中后期出现的一种人工智能理论, 它是对人脑或自然的神经网络若干基本特性的抽象和模拟, 是一种非线性的动力学系统。BP神经网络的学习过程是由正向传播和反向传播组成。在正向过程中, 输入信号从输入层经隐层单元逐层处理, 并传向输出层, 每一层神经元的状态只影响下一层神经元的状态.如果在输出层不能得到期望的输出, 则转向反向传播, 将输出的误差按原来的连接通路返回。通过修改各层神经元的权值, 使得误差信号最小。得到合适的网络连接值后, 便可对新样本进行非线性映象。建模的具体步骤见文献[3]。
BP人工神经网络为非线性的梯度优化问题, 因此不可避免地存在局部极小问题。当输入样本较多且具有多重共线性时, BP神经网络会降低网络的训练速度和效率, 影响预报精度, 学习算法通常需要上千次或更多, 以上原因大大限制了BP网络的推广应用。由此产生了一系列改进算法, 比如Levenber g-Mar quar dt算法, Quasi-Newt on算法, 共轭梯度法, 弹性BP算法, 一阶正切算法, 学习率自适应的BP算法等。在一系列的改进算法中, 由于各种算法各有优缺点, 对一个给定问题来说, 很难说那一个算法是最合适的。它取决于多种因素, 如问题的复杂度、训练的样本数、网络的权重和偏差数、误差目标等。
四、灰色预测GM (1, 1) 模型
经济系统中的数据可以看成是在一定范围内变化的灰色随机量。通过关联分析, 并对原数据进行生成数处理, 可得到规律性较强的数据序列, 然后建立相应的微分方程, 预测出经济系统中的未来数据及发展趋势的状况, 这就是灰色系统理论用于经济预测的理论基础。
五、组合预测模型
在对实际经济问题进行预测时, 人们往往事先无法确定哪种预测方法最佳, 因为每种预测方法的适用条件不同, 预测前很难准确判断出适用条件。每种预测方法都有其独特的信息特征, 能从不同角度反映未来情况, 舍弃一种预测方法都极有可能使宝贵的经济信息资源得不到充分的利用。从预测的可靠性和风险性考虑, 仅仅使用单一预测模型对复杂经济系统进行预测是不可行的, 为了尽可能多地利用有用信息Bat es和Granger提出了组合预测理论, 组合预测模型不同于以上几种模型, 他不是根据各项历史数据建模, 而是将不同的预测模型进行适当的组合, 得到比任何一个独立预测值更好的组合预测值。组合预测模型一类为权系数组合预测法, 如最优组合预测法, 变权重组合预测法, 这类方法的特点是认为参加组合预测的各个模型之间是一种线性关系。一类为非线性组合预测法, 使用较多的是人工网络方法。
六、结语
以上经济预测模型在实际应用中既有区别也有一定的内在联系, 比如应用任何模型进行预测前都需要对变量进行筛选, 需要对预测结果进行相关系数、平均绝对误差和平均相对误差以及预报模型拟合值, 相关性进行计算检验。在实际应用中, 我们应该根据实际问题的特点选择适合的模型进行预测。
参考文献
[1]何晓群, 现代统计分析方法与应用[M], 中国人民大学出版社, 北京, 2007
[2]王惠文, 偏最小二乘回归方法及应用[M], 国防科技出版社, 北京, 1996.
[3]张建勋, 人工神经网络对时间增长序列预测能力分析[J], 预测, 1999, 5, 60—63
[4]余晓秋, 葛家麒, 刘长海, 组合预测方法在黑龙江大豆产量中的应用[J], 数学的实践与认识, 2007, 37 (24) , 27-31
电力系统的负荷预测是电力系统运行、规划等工作的重要基础。准确的负荷预测, 可以经济合理地安排电网内部发电机的启停, 保证电网运行的安全稳定性, 减少不必要的旋转储备容量, 合理安排机组检修计划, 保证社会的正常生产和生活, 有效地降低发电成本, 从而提高电力系统的经济效益和社会效益。
负荷预测的核心问题是预测的技术方法, 或者说是预测数学模型, 随着现代科学技术的不断进步, 负荷预测理论技术得到了很大发展。近年来, 灰色理论得到了众多专家的深入研究, 其灰色预测方法得到一定程度的认可。由于灰色模型法具有所需数据少、计算量小的优点得到了广泛应用, 而年度预测经常具有单调性的特点, 所以灰色系统预测模型用于中远期负荷预测是一种有效的方法, 但灰色模型是有偏差的指数模型, 在实际应用中还有一定的局限性。为此, 本文对传统灰色模型及其改进模型在中长期负荷预测的精度进行了比较分析, 为电力系统中长期负荷预测提供参考。
2 灰色预测方法
2.1 传统灰色GM (1, 1) 模型
设有n个原始负荷样本数据xi (0) , i=1, 2, …, n, 对此数列进行一阶累加 (1-AGO) 生成新数据序列为:
并利用此新序列生成紧邻均值生成序列z (1) (k) 为:
建立灰色GM (1, 1) 模型的一级白化微分方程为:
式中, a, b为参数项。
灰色GM (1, 1) 模型参数列A=[a, b]T的最小二乘估计为:
A=[a, b]T= (BT B) -1BTY (4)
其中,
将计算求得的参数a, b代入式 (1) , 并求解微分方程, 取x (1) (0) =x (0) (0) , 可得到灰色GM (1, 1) 预测模型为:
对此式再做一阶累减还原计算 (1-IAGO) , 得到原始序列x (0) 的灰色GM (1, 1) 预测模型为:
式中x赞 (0) (k) , k=1, 2, …, n———原始数据序列x (0) (k) , k=1, 2, …, n的拟合值;
———原始数据序列的预测值。
2.2 无偏灰色WPGM (1, 1) 模型
基于传统灰色GM (1, 1) 模型仅能适用于原始数据序列按指数规律变化且变化速度不是很快的场合, 故可对传统灰色GM (1, 1) 模型的参数加以修正, 修正后的模型为无偏差模型, 记为WPGM (1, 1) 。无偏灰色预测模型消除了传统灰色预测模型本身所固有的偏差, 实质上是一种无偏的指数模型。无偏灰色预测模型不仅性能优于传统灰色预测模型, 而且其适用范围也较传统灰色预测模型有了很大扩展。
设有n个原始负荷样本数据xi (0) , i=1, 2, …, n, 对此数列进行一阶累加 (1-AGO) 生成新数据序列为:
并利用此新序列生成紧邻均值生成序列z (1) (k) 为:
建立灰色GM (1, 1) 模型的一级白化微分方程为:
式中, a, b为参数项。
灰色GM (1, 1) 模型参数列A=[a, b]T的最小二乘估计为:
A=[a, b]T= (BT B) -1BTY (12)
其中,
求无偏GM (1, 1) 模型参数:
建立原始数据序列模型:
式中, k=1, 2, …, n———原始数据序列x (0) (k) , k=1, 2, …, n的拟合值;
, k>n———原始数据序列的预测值。
2.3 灰色p GM (1, 1) 模型
对于传统GM (1, 1) 预测模型, 通常都是以固定的背景值 (一次累加的紧邻均值) 作为基础进行建模。然而, 这并不能充分反映出背景值在建模中的作用。并且, 通常都是认为当Δt=1的很短时间内, 变量x (t) →x (t+Δt) 之间不会出现突变量, 然而Δt只是一种相对的短时间概念, 对于多数动态系统来说, 仍不可避免在Δt时间内会出现突变量的情况, 从而使原始序列出现较大波动。为此, 从误差理论出发, 对GM (1, 1) 的背景值加以改进, 以x (1) (t) 与x (1) (t+1) 的加权平均值作为新的背景值, 其公式为:z (t+1) = (1-p) x (1) (t) +px (1) (t+1) , 其中, p为背景值生成参数, 根据原始值与模型预测值的平均模拟相对误差:
达到最小来确定 (其中, ε (k) =x赞 (0) (k) -x (0) (k) , 然后根据GM (1, 1) 方法建立预测模型。这种依据新背景值取值方法所建的GM (1, 1) 模型称为p GM (1, 1) 模型, 该模型是一种更具一般意义的灰色预测方法。
设有n个原始负荷样本数据xi (0) , i=1, 2, …, n, 对此数列进行一阶累加 (1-AGO) 生成新数据序列为:
并利用此新序列生成紧邻均值生成序列z (1) (k) 为:
其中, k=2, 3, …, n, 0≤p≤1。
建立灰色GM (1, 1) 模型的一级白化微分方程为:
式中, a, b为参数项。
灰色GM (1, 1) 模型参数列A=[a, b]T的最小二乘估计为:
A=[a, b]T= (BT B) -1BTY (20)
其中,
将计算求得的参数a, b代入式 (6) , 并求解微分方程, 取x (1) (0) =x (0) (0) , 可得到灰色GM (1, 1) 预测模型为:
对此式再做一阶累减还原计算 (1-IAGO) , 得到原始序列x (0) 的灰色GM (1, 1) 预测模型为:
式中, k=1, 2, …, n———原始数据序列x (0) (k) , k=1, 2, …, n的拟合值;
, k>n———原始数据序列的预测值。计算平均模拟相对误差:
根据模拟相对误差, 确定最佳权值, 完成模型模拟运算。
3 算例
3.1 原始数据
本文利用参考文献《灰色Verhulst模型在中长期负荷预测中的应用》一文中的5种具有代表性的负荷序列来进行预测, 负荷历史数据如表1所示。
3.2 预测结果
运用3种模型分别对5种负荷序列进行预测, 不同模型预测结果如表2所示, 不同模型预测结果的相对误差如表3所示。
通过对3种模型预测结果分析可知, 无偏灰色WPGM (1, 1) 模型预测拟合精度最高, 灰色p GM (1, 1) 模型次之, 传统灰色GM (1, 1) 模型较差。
4 结语
本文通过运用3种灰色模型对不同负荷序列进行预测, 结果表明, 3种模型的预测误差基本达到高精度水平, 尤其对于指数型曲线增长趋势数据的预测, 无偏灰色WPGM (1, 1) 模型给出了令人满意的预测精度。对其他增长趋势的负荷, WPGM (1, 1) 模型的相对误差也较小, 在一定程度上降低预测时的风险, 适用于电力投资规划决策的谨慎性要求。
摘要:详细介绍了传统灰色模型GM (1, 1) 及其改进模型无偏灰色模型WPGM (1, 1) 、加权灰色模型pGM (1, 1) 的原理及其在电力系统长期负荷预测中的应用, 结果表明无偏灰色模型WPGM (1, 1) 具有较高的预测精度。
关键词:中长期负荷预测,灰色模型,电力系统
参考文献
[1]张毅.中长期电力负荷预测.四川大学硕士论文, 2003.4
[2]柴淑云.电力系统中长期负荷预测方法的研究与软件开发.华北电力大学硕士论文, 2005.12
[3]张伏生, 刘芳, 赵文彬, 等.灰色Verhulst模型在中长期负荷预测中的应用.电网技术, 2003 (5) :37~39, 81
[4]吉培荣, 黄巍松, 胡翔勇.无偏灰色预测模型[J].系统工程与电子技术, 2000, 22 (6) :6~8
本工作运用θ投影法和θ投影法结 合GrahamWalles法的复合模型评价P92钢的蠕变性能。运用两种蠕变模型进行了外推P92钢的最小蠕变速率与应力曲线的比较分析并在不同蠕变应变下也比较分析了两者外推最小蠕变速率与断裂时间的曲线。同时考察不同蠕变应变对寿命预测的影响,结合蠕变信息和蠕变模型对比分析了预测持久寿命的精度。
1实验材料及分析方法
选定P92钢作为实 验材料,其成分符 合ASME A335标准,温度为600℃,应力为200,205,215,225, 235MPa和温度在650℃,应力为125,135,150,165, 175MPa进行蠕变实验,并采用以下两种蠕变参数法拟合并对比分析蠕变行为。
θ投影法:把蠕变过程看成由蠕变第1阶段的硬化过程和蠕变第3阶段的软化过程所组成,整个蠕变曲线的表达式为:
复合模型:Graham-Walles法描述蠕变第一阶段和θ投影法描述蠕变第三阶段,其表达式为:
式(1)和(2)中,ε是t时的蠕变变形量,θ和g是与应力和温度有关的参数且满足以下关系:
式中,ai,bi,ci和di为材料常数,通过非线性最小二乘法拟合式(3)中的参数值,从而可知任意温度和应力下的θ和g值,结合式 (1)和 (2)则可计算相应的蠕变 曲线。
基于上述方程得到最小蠕变速率:对关系式(1)的时间t求二次导数,导数为0时对应的时间为蠕变达到最小蠕变速率的时间tm,如式(4)所示,将式(4)所得tm带入式(5)得到的蠕变速率即为最小蠕变速率εm。
同理对表达式(2)对时间t求二次导数,当导数为0时对应的时间即 为最小蠕 变速率对 应的时间tm,即式 (6)中的tm。通过式(7)可以求得最小蠕变速率。
为得到θ投影法和复合模型外推最小蠕变速率与时间的关系,结合所得的θ参数和式(1)即知到达一定蠕变应变时的时间,从而外推最小蠕变速率与时间的曲线。同理结合所得的g参数和式(2)即知到达一定蠕变应变时的时间,从而外推最小蠕变速率与时间的曲线。通过运用蠕变模型外推蠕变速率与应力和时间的关系,本工作旨在运用不同蠕变模型描述蠕变行为之间进行对比分析。同时在不同的断裂应变时,进行外推持久性能比较分析。
2结果与讨论
2.1蠕变曲线的描述及蠕变曲线预测的比较分析
基于蠕变模型外推蠕变曲线与蠕变速率曲线,并将两者与实验数据点进行对比,分析两种模型外推的差异。图1(a)是650℃不同应力下运用模型外推的蠕变曲线,图1(b)是运用模型外推的蠕变速率曲线。
从图1(a)可知运用θ投影法和复合模型直接拟合蠕变曲线时,拟合曲线与实验数据吻合,拟合精度均在0.90205到0.99984之间。表明两种模型的预测方程能表征P92钢的应变与时间曲线。图1(b)是拟合参数关联温度和应力后运用两种模型外推的蠕变速率与时间的关系曲线,从图1(b)可知θ投影法能较好的描述蠕变曲线第三阶段,但θ投影法外推的蠕变速率曲线在第一阶段与P92真实蠕变速率曲线有较大差异。有报道指出[12]在许多材料中蠕变第一阶段是整个塑性变形的重要组成部分,从图1中也可知P92钢的蠕变曲线基本上是由第一阶段和第三阶段组成,第一阶段占整个蠕变断裂时间的比例较大。如果蠕变第一阶段不能正确描述可能会对长时间的蠕变曲线外推和寿命预测精度有影响。然而复合模型却能精确地描述P92钢蠕变曲线的第一阶段和第三阶段,因复合模型的预测方程在描述蠕变第一阶段时,其蠕变速率与时间在双对数坐标下呈线性关系,与P92钢的蠕变速率随时间的变化规律一致。而θ投影法能很好地描述蠕变第三阶段,所以复合模型运用θ投影法来描述第三阶段并结合Graham-Walles法描述第 一阶段来 预测P92钢的蠕变行为就较θ投影法更能精确地描述P92钢的蠕变特性。
2.2蠕变模型预测蠕变速率的比较分析
两种模型预测的最小蠕变速率与实测值的相对大小能验证两种模型的预测精度[13],运用式( 5 )和式( 7 )可预测两种模型的P92钢最小蠕变速率,并与实验所得最小蠕变数据进行对比分析,如图2所示。
图2可知θ投影法预测值与实测值之间偏差较大,通过预测值与实测值的差值分析,θ投影法的预测值与实测值相对误差的最大值达到了86.2%。而复合模型的预测值与实测值均较好的分布在Y=X的直线上,复合模型的预测值与实测值相对误差的最大值为30.2%,表明预测值与实测值的符合性较好。出现这种现象的原因可能是θ投影法不能较好地描述P92钢的蠕变第一阶段,因而预测精度也较复合模型稍差。 从图1(b)中两种模型预测的蠕变速率曲线也能表征两者最小蠕变速率的差异。
在一定的温度下,一个受单向拉伸应力的试样的蠕变应变ε随时间而增加的规律与温度、应力、时间及组织状态有关[14],以双曲正弦函数模型为基准,比较分析两种不同模型外推最小蠕变速率与应力,如图3所示。
图3中两种模型在预测最小蠕变速率与应力曲线的同时也运用适用型更广的双曲正弦函数的预测结果来验证两种模型的精度。图3所示在数据点范围内, 实测值均能在θ投影法和复合模型的预测曲线上。但在外推至低应力时,在650℃,两种模型的预测曲线与双曲正弦函数模型外推的趋势一致,呈现出外推的合理性。然而在600℃时,θ投影法外推曲线在190MPa处发生偏折呈现出预测的不合理性,然而复合模型的外推曲线与实际蠕变特征相符。蠕变曲线记录并反映了蠕变机理作用的过程而蠕变模型在描述蠕变曲线时依存于模型表达式,模型中的参数值与温度和应力的关系是否拟合良好是外推的关键所在。复合模型能较 θ投影法更好的描述P92钢的蠕变行为,这也说明了复合模型的数学表达式能很好地表征蠕变的每个阶段从而预测的精度会较高。
设定不同的蠕变断裂应变,基于两种模型外推最小蠕变速率与时间曲线,如图4所示。
图4所示在实验数据点的范围内,最小蠕变速率与时间在双对数坐标中呈现出良好的线性关系,符合Monkman-Grant[15]关系。其表达式如下:
在数据点范围内,两种模型预测的曲线均较吻合数据点。外推时,两种模型在650℃预测的曲线呈良好的线性关 系并与M-G关系外推 趋势一致。 但在600℃外推时 ,θ投影法的预测 曲线出现 偏折与M-G线性的关系不符,预测趋势呈现出不合理性,而复合模型在600℃时预测曲线与M-G线性的关系相符,预测趋势呈现出合理性。
同时基于实验数据点能得到的M-G方程并外推10万小时曲线作为标准,来评判不同模型在不同温度下的预测精度。本工作中以应变量20%为例进行比较,两模型的外推与时间的关系如图5所示。
从图5可知θ投影法在长时预测的最小蠕变速率值与M-G关系曲线之间的相对误差随着时间的增加而越来越大,10万小时达到100%,然而复合模型预测的相对误差在整个最小蠕变速率外推的过程中最大为66.2%,比θ投影法的预测误差相对来说小得多。出现偏差较大的原因是θ投影法以θ参数反映温度和应力对蠕变各阶段的作用,在θ参数值关联温度与应力后进行蠕变曲线描述时,θ投影法的描述就依存于方程表达式,因不能较好地描述P92蠕变应变-时间曲线和蠕变速率-时间曲线而致使 较大的相 对误差产 生。 同样,复合模型能较好的描述P92钢的蠕变性能,使得预测精度较θ投影法更高。上述表明描述P92钢的蠕变模型不仅要分析在实验数据范围内的拟合程度, 还要关注外推后预测结果的合理性和可靠性。
2.3蠕变模型预测持久寿命的比较分析
运用θ投影法和复合模型进行持久寿 命的预测 并比较分析,在模型表 达式中的 参数值均 关联温度 和应力,拟合后的 参数值带 入式 (1)和式 (2),通过设定一定的 断裂应变 即可进行 寿命预测 。 图6给出了蠕变应变 与温度和 应力的关 系。 从图中可 知不同温度与应力 下的断裂 应变均很 好的分布 在三者变量的外推三 维曲面上,断裂应变 在1% ~50% 的范围内。
通过图6的结果分别设定蠕变应变为1%,5%, 50%进行持久断裂寿命的预测。图7给出了两种模型在不同蠕变应变时外推的持久性能曲线与P92钢持久断裂数 据[16]和ASEM公布的Gr92钢的持久 数据[17]进行对比。
图7所示在650℃时,ASME Gr92数据均匀分布在断裂应变为1%至50%预测的持久曲线之间,然而在600℃时,在实验值范围内复合模型比θ投影法的预测寿命曲线能稍好的包含ASME Gr92数据,但外推长时寿命曲线时两者均偏离数据点并呈偏高的趋势。大体而言两种模型的预测寿命有差距,但差距不大。可能是因为模型运用关联温度与应力的参数值后评估蠕变行为出现了偏折现象,在运用此模型表达式来预测时精度就相对稍差。在600℃两种模型均预测偏高的原因不排除实验钢的批次等因素,实际P92钢的持久数据是不同批次实验所得,因此在利用蠕变参数法不能仅从单一批次的持久数据来预测,而应该运用不同批次的持久断裂数据预测并应充分考虑材料性能的波动性和分散性来提高预测精度。同时图7中也可知应变5%~50%之间外推的曲线几乎重合,这说明了蠕变应变为5%~50%时,对蠕变行为的预测影响不大。大范围波动的蠕变应变寿命预测相差不大的原因是蠕变应变大约在5%后,进入快速的第三阶段, 此时应变增加非常快,伸长率的变化只能引起相当小的寿命的变化。
3结论
(1)直接拟合蠕变曲线时,θ投影法和复合模型均能得到很好的拟合效果,但在关联蠕变速率与时间关系时,复合模型能很好地描述蠕变第一阶段的减速和第三阶段的加速特征,而θ投影法在描述蠕变第一阶段时偏差较大,不能准确描述P92钢的蠕变行为。
(2)利用两种方法外推蠕变速率结果表明:在实验数据点内,预测结果与实验数据符合良好。但外推时, θ投影法在600℃预测的最小蠕变速率与应力和断裂时间曲线均出现了偏离,而复合模型在不同温度下呈现出很好的线性预测趋势。而且蠕变应变的大小对描述蠕变行为影响不大。
(3)利用两种方法外推持久寿命结果表明:蠕变应变的大小对通过蠕变数据来预测持久寿命预测影响不大,而且在蠕变应变为5%~50%时,寿命预测结果之间相差不大。θ投影法和复合模型两者相比,在预测持久寿命上差距小。
摘要:比较分析了复合模型法和θ投影法在描述P92钢蠕变行为时的差异。结果表明:两者在拟合P92钢蠕变-时间关系曲线上均有较高的精度,但在描述蠕变速率-时间曲线上,θ投影法呈现较大的误差而复合模型则有良好的关联结果。在外推蠕变速率时,θ投影法的外推结果发生较大偏折,而复合模型的预测结果更接近实际变化趋势。基于蠕变曲线外推持久寿命的结果表明:5%~50%范围内的断裂应变对寿命预测结果影响较小,两种模型预测的持久寿命值之间也相差不大。
一、引言
旅游业是海南省主要支柱产业之一,而旅游活动是海南省的主要社会经济活动之一。过夜旅游者接待人数的预测有利于海南这一旅游接待地掌握旅游流的变化规律,事先做好应对旅游者人数波动的准备,以尽可能地提高旅游竞争力。
通过阅读大量文献发现:目前对海南旅游人数预测研究的文章为数并不多,就CNKI检索而言,仅有两篇。杨伟芳、田飞(2012)根据2007-2011年旅游人数,借助于MATLAB软件,采用regress函数进行分析,建立起一元回归模型,对2012年旅游人数进行预测并作出相关分析。张侨、蔡道成(2014)应用SPSS软件,根据2010年1月至2013年11月的数据,建立ARIMA时间序列模型,分析海南接待旅游者人数的长期趋势、季节性和长期扰动等特征,并对海南旅游者人数进行预测。本研究则主要采取模型比较法,通过分析2002-2013年海南过夜旅游者人数数据,建立相应的一元线性回归模型、指数模型和时间序列ARIMA模型并进行预测效果的对比,找出海南省过夜旅游者人数预测的最佳模型,揭示其变化规律和发展趋势,为有关旅游部门在采取切实可行的对策和做好旅游接待工作等方面提供依据。同杨、张两篇论文相比:
(一)本研究是在杨、张等人(杨伟芳、田飞,2012;张侨、蔡道成,2014)研究基础上进行深入探索,采用模型比较法,最终确定最佳预测模型为指数模型。
(二)本研究选取的时间数据容量相对较大,综合考虑了海南省建设国际旅游岛前后的过夜旅游者人数,研究时间跨度较大,有利于增强研究结果的可靠性。
(三)本研究在时间序列模型分析阶段,最终采用的是ARIMA(0,0,1)(0,1,1),同张、蔡二人(张侨、蔡道成,2014)所采取的预测模型是不同的。
二、数据准备及相关性检验
(一)数据准备
通过整理海南省旅游统计的相关数据,得到海南省2002-2013年接待过夜旅游者人数的数据,如表1、表2所示。表2中黑色加粗部分为缺失替换值,采用邻近4个点的平均值进行替换,因而在数据合计方面,两表可能会有点出入,实际合计以表1为准。
(二)相关性检验
利用SPSS软件对“海南省接待过夜旅游者人数”与“时间(年份)”两变量进行相关性检验,P值为0.971,即双尾相关性显著,说明海南过夜旅游者随着年份的变化,呈现一定的变化规律。
三、模型建立及分析
(一)回归模型
由图1可看出海南省过夜旅游者人数是时间(年份)的增函数,且其分布规律看似既符合线性回归模型中的一元线性回归分布特征,又符合非线性回归模型中的指数分布特征。其中:自变量X为时间,2002年则表示为“X=1”;因变量Y为海南省过夜旅游者人数。
1、一元线性回归模型
模型假设。对海南省接待过夜旅游者人数建立一元线性回归预测模型:Y=β+β1X。
参数估计。借助S P S S软件中的线性回归分析功能,对表1的数据进行分析,确定系数β和β1。由运行结果可知:β=689.917,β1=2 2 3.9 9 8,则该方程最终表达式为:Y=689.917+223.998X。
模型检验。R²=0.943,P<0.001,说明模型的拟合效果不错。
2、指数模型
模型假设。假设该指数模型为:Y=a*exp(b*X)。
参数估计。借助SPSS软件对表1数据进行分析,系统采用迭代方法,最终确定系数a和b:a=975.899;b=0.11。故而得出该指数模型的最终表达式为:Y=975.899*exp(0.11X)。
模型检验。由参数估计值R²=0.992可知该指数模型拟合效果是非常理想的。
(二)时间序列ARIMA模型
1、时间序列模型
所谓的时间序列模型,即依据时间顺序排列起来的一系列观测值,重点考察变量在时间方面的发展变化规律,并为之建立起来的数学模型。在SPSS中,时间序列模型主要包括四大分析模块:指数平滑法(Exponential smoothing);自回归线性模型(Autoregressive model);ARIMA模型;季节解构(Seasonal Decomposition)。而ARIMA模型可以算是真正的时间序列模型建模分析方法。
2、ARIMA模型的建立
缺失值的填补,见表2。海南过夜游客人数呈逐步增长性及季节波动性。
模型的确定及检验。通过应用SPSS软件中的时间序列专家建模器功能,最终确定该模型为ARIMA(0,0,1)(0,1,1),并得到相应的Q检验及模型拟合度统计资料。从Q检验离群值来看,Q统计量为12.833,P值为0.685>0.05,因此不能够拒绝白噪声假设。在数据存在长期趋势和季节波动的时候,模型的效果是不能用R²来判断的,而应该用“平稳的R²”来判断。故而采用“平稳的R²”来判断ARIMA模型的拟合效果会更客观一些。该模型的“平稳的R²”为0.504,说明其模型解释度还是可以的。
四、模型预测结果比较分析
(一)模型预测结果比较
三种模型预测结果如表3和图2所示。ARIMA模型的年度预测数据是由各个月度的预测值分别累加所得。
五、结论
通过表3和图2对三种模型预测结果的比较,发现:一元线性回归模型的预测误差及其波动性最大,其次是ARIMA模型,而指数模型的预测误差及其波动性最小。由此可见:三种模型中,一元线性回归预测模型是最不适用于作海南省过夜旅游者人数预测的。而根据ARIMA模型年度数据的计算方法,即在计算年度数据时需要先预测各个月份的数据,而后分别累加得到各个年度的具体预测值,这期间不仅加大了预测的工作量,而且所涉及的不确定因素也将随之增多,因而预测误差将有可能随之增大。因此,指数模型与ARIMA模型相比,二者的预测结果虽然看似不相伯仲,但ARIMA模型由于自身条件的限制,则更适用于作短期月度预测,而指数模型则适用作年度长期预测且操作简便。
六、结语
注:本文为网友上传,旨在传播知识,不代表本站观点,与本站立场无关。若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:iwenmi@163.com
相关知识
植物病虫害预测预警模型
病虫害预测预报模型.docx
小麦种植病虫害预测模型考核试卷.docx
基于智能算法的月季鲜切花病虫害预测模型的探究.pptx
大数据驱动下的农作物病虫害预测模型.docx
基于智能算法的月季鲜切花病虫害预测模型的探究
一种基于模型融合的农作物病虫害指标预测方法及装置
花生叶斑病模拟模型与病虫害预测专家系统的研究
一种基于模型融合的农作物病虫害指标预测方法及装置.pdf
基于人工神经网络的农业病虫害预测模型及其效果检验
网址: 病虫害预测模型比较 https://m.huajiangbk.com/newsview222911.html
上一篇: 长风新村街道丨种下石榴树 开出团 |
下一篇: 10种农作物叶子病害图像的数据集 |