五种预测方法在退田还湖区血吸虫病发病的拟合效果评价

来源:岁月联盟 作者: 时间:2010-07-12

             作者:赛晓勇,邢秦菊,孟定茹,贾玉然,蔡凯平,李岳生,周晓农

【关键词】  统计预测;ARIMA模型;血吸虫病;退田还湖

  Comparison of predicting effect of schistosomiasis prevalence by 5 statistical models in the areas of "breaking dikes or opening sluice for water store" in Dongting Lake

  【Abstract】 AIM: To compare the predicting effect of schistosomiasis prevalence by 5 different statistical models including Moving Average, Exponential Smoothing, Autoregressive Model, Autoregressive integrated moving average model (ARIMA Model) and Grey Model in the areas of "breaking dikes or opening sluice for water store" in Dongting Lake and to provide a fitted model for local schistosomiasis preventive department. METHODS: The 5 different statistical models were applied to predict the schistosomiasis prevalence in some experimental sites and Error Sum of Square (ESS), Average Relative Errors (ARE), Average Errors (AR) of 5 models were compared. RESULTS: ESS, ARE and AR of Grey Model in Jicheng were smallest; ESS and AR of ARIMA Model in Haohou were smallest; ARE of Autoregressive Model was smallest. CONCLUSION: Different models fit different places. The predicting effects of Grey Model and ARIMA Model are best among the 5 models.

  【Keywords】 Statistical prediction;ARIMA Model; Schistosomiasis;Breaking dikes or opening sluice for water store

  【摘要】 目的: 比较移动平均法、指数平滑法、自回归法、ARIMA法和灰色预测法在退田还湖地区试点血吸虫病发病拟合效果的优劣,为当地血防部门提供较为适合的拟合方法. 方法: 应用五种方法对集成垸试点和濠口试点血吸虫病患病率建模预测并比较拟合值的绝对误差、相对误差和误差平方和. 结果: 集成垸试点灰色预测法拟合值的平均绝对误差、平均相对误差和误差平方和最小;濠口试点平均绝对误差、误差平方和以ARIMA法最小,平均相对误差以自回归法最小. 结论: 不同的拟合模型适用于不同的试点;两试点以灰色预测和ARIMA模型拟合效果较好.

  【关键词】 统计预测;ARIMA模型;血吸虫病;退田还湖

  0引言

  1998年我国开始退田还湖,使血吸虫病中间宿主钉螺孳生环境发生了变化. 在应用不同方法对血吸虫病病情预测研究的基础上,对移动平均法、指数平滑法、自回归法、ARIMA法和灰色预测法进行了比较与评价,为退田还湖区血防部门找到相对精确的定量拟合方法.

  1材料和方法

  1.1材料

  收集退田还湖地区华容县的集成垸试点(双退点,即退人又退田,该垸1998年完全废弃用于泄洪)和濠口试点(单退点,退人不退田即洪水期人转移、洪水过后返回种田)1990~2003年连续粪检阳性率的病情资料. 集成垸试点退田还湖后滞留人口2600人,面积为2200万平方米;濠口试点常住人口1176人,面积为297万平方米,均为湖南省血吸虫病重灾区监测试点. 全部病情资料由湖南省血防所及华容县洪山头镇血防站和澧县小渡口血防站提供.

  1.2方法

  1.2.1移动平均法是利用一组观察值的均值作为下一期的预测值,设时间序列为x1,x2,x3…,可以表示为Ft+1=1〖〗NΣt〖〗t-N+1,式中xt为最新观察值;Ft+1为下一期的预测值,N为一组观察值的个数. q阶移动平均模型的公式为:Yt=et-θ1et-1-θ2et-2-…-θqet-q,用自相关系数识别,它的自相关系数为:rk=-θk+θ1θk+1+…+θq-kθq〖〗1+θ21+θ22+…+θ2q〖〗1≤k≤q
0〖〗k>q. 时间序列相差k个时期两项数据序列之间的依赖程度可用自相关系数rk表示为Σn〖〗t=k+1(Yt-Y)(Yt-k-Y)/Σn〖〗t=1(Yt-Y)2. 式中:n是时间序列Yt的数据的个数;Yt-k是其滞后k期数据形成的序列. Y=1〖〗nΣn〖〗t=1Yt,是时间序列的平均值. rk取值范围在正负1之间,|rk|与1越接近,说明时间序列的自相关程度越高.

  1.2.2指数平滑法用序列过去值的加权均数来预测将来的值,并给近期的更大的权数,远期的给以较小的权数. 表达式为z^t+1=αzt+(1-α)z^t,α为平滑指数,z^t+1为下一年预测值,zt为当年真实值,z^t为当年预测值. 到时期t时,只需知道实际数值和本期预测两个数据值就可预测下一个时间的数值.

  1.2.3自回归分析自回归分析主要是对时间序列求其本期与不同滞后期的一系列自相关系数和偏自相关系数以识别其特性,主要用偏自相关系数来判定模型的阶数. P阶自回归AR(P)模型的公式为:Yt=1Yt-1+2Yt-2+…+…pYt-p+et,它的偏自相关系数满足:ki=i〖〗1≤i≤p
0〖〗p+1≤i≤k. 偏自相关是时间序列Yt在给定了Yt-1,Yt-2,…Yt-k+1的条件下,Yt与滞后k期时间序列之间的条件相关. 它用来度量当其他滞后1,2,3,…,k-1期时间序列的作用已知的条件下Yt与Yt-k之间的相关程度,用Φkk度量. Φkk=(rk-Σk-1〖〗i=1Φk-1,i×rk-i)/(1-Σk-1〖〗i=1Φk-1,i×ri). k=2,3,…式中:Φk,i=Φk-1,i-Φkk×Φk-1,k-I,i=1,2, …,k-1.

  1.2.4ARIMA模型首先判定数据有无随机性、平稳性、季节性,然后要在预测之前实现最优拟合、建模,最后进行预测及评价. 模型为ARIMA(p,d,q),它将移动平均、自回归分析及差分结合起来. 确定3个参数,即自回归阶数(p)、差分次数(d)、移动平均阶数(q),它首先通过差分把时间序列的季节性消除之后(达到数据平稳),然后建模,最后估计参数. 对非季节数据,一般求一阶差分即可. 若时间序列的季节性的变动周期为T,时间序列Yt的一阶季节差分序列TYt为TYt=Yt-Yt-T(t>T). 自相关分析图将自相关系数和偏自相关系数绘制成图,并标出了置信区间,利用它可分析时间序列的随机性、平稳性和季节性. 随机性是指时间序列各项之间没有相关关系的特性. 判定准则:自相关系数基本上落在置信区间内. 平稳性是指时间序列的统计特征不随时间推移而变化. 判定准则:自相关系数rk在k>3时都落入置信区间内并逐渐趋于零. 季节性是指在某一固定时间间隔上,重复出现的某种特性. 判定准则:某一时间序列在k=2或3以后的自相关系数rk值存在着周期性的显著不为零的值,则有季节性[5].

  1.2.5灰色模型假定给定时间数据序列X(0)有n个值,X(0)={X(0)(k),k=1,2,…,n},作相应的1阶累加序列X(1)={X(1)(k),k=1,2,…,n},则序列{X(1)(k),k=1,2,…,n}的GM(1,1)模型的白化微分方程为:dX(1)/dt+aX(1)=μ,式中:a为灰数;μ内生控制灰数. 模型检验包括残差检验、关联度检验和后验差检验. 残差检验是按预测模型X^(1)(i),并将X^(1)(i)累减生成X^(0)(i),然后计算原始序列X(0)(i)与X^(0)(i)的绝对误差序列及相对误差序列. 绝对误差越小越好,相对误差一般认为小于0.5%为好. 关联度检验是根据X^(0)(i)与原始序列X(0)(i)的关联系数计算出关联度,当ρ=0.5时一般认为大于0.6满意了. 后验差检验需计算原始序列的标准差S1和绝对误差序列的标准差S2,然后计算方差比和小误差概率. 若残差检验、关联度检验和后验差检验都能通过,可以用该模型预测,否则进行残差修正.

  1.2.6方法评价以绝对误差、相对误差和误差平方和作为评价指标.

  2结果

  集成垸试点和濠口试点应用5种方法预测的结果分别见表1,2;预测效果比较见表3.表1集成试点1993~2002年血吸虫粪检阳性率观察值及拟合值比较(略)表2濠口试点1994~2002年血吸虫粪检阳性率观察值及拟合值比较(略)表3不同试点各方法拟合效果比较(略)

  3讨论

  在对时间序列和灰色拟合模型进行选择时,应当考虑三个主要的问题:适用性、精确性和费用. 任何一种预测方法都是建立在一定的假定条件之上的,而任何一种假定条件都难以包括现实世界中所有复杂的关系因而必须考虑适用条件[1]. 移动平均法、指数平滑法、自回归法、ARIMA法均适用于短期拟合而灰色预测还适于中期预测. 移动平均法适用于不带季节变动的反复预测,缺点是初次选择权数费时间;指数平滑法对于有、没有季节变动的反复预测均适用,建模时间与其他方法相当;自回归法适用于残差间相互不独立,过程较ARIMA模型简单;ARIMA模型适用于任何序列的发展型态但计算过程复杂、繁琐;灰色预测法适用于时序的发展呈指数趋势. 各方法精确性要通过计算误差比较评价.

  目前国内外统计模型在医学领域的应用已进行了大量的研究,传染病方面也有应用. 丁守銮等[2]用所建模型对肾综合征性出血热各月发病率进行了预测,结果表明ARIMA是一种短期内预测精度较高的预测模型,与本研究结论一致. 张彦琦等[3]曾对对数模型、指数平滑模型和ARIMA乘积模型的预测结果进行分析发现对数模型、指数平滑模型和ARIMA乘积模型的预测平均相对误差分别为14.34%, 8.14%和4.89%,从而得出ARIMA模型效果较好的结论. 张蔚等[4]对所研究的季节性时间序列建立了乘积ARIMA(0,1,1)×(0,1,1)12模型并用预测平均相对误差进行评价发现ARIMA乘积模型的预测效果优于指数平滑法.
   
  灰色预测应用研究同样较多,冯丹等[5]利用GM(1,1)模型预测大庆市流行性脑脊髓膜炎发病率和病死率并对模型精度进行了检验,显示拟合精度高. 黄春萍等[6]应用灰色模型预测克拉玛依市肺结核发病率并与线性回归模型、指数模型、多项式模型拟合效果进行比较发现,GM(1,1)模型可以对该地区肺结核发病率进行较好的短期预测. 蔡碧等[7]为了探讨灰色系统理论对血吸虫病八项疫情指标预测的可信性,用灰色理论对血吸虫病八项疫情指标建立预测模型,并用“残差建模”提高原点精度、用“等维递补灰数动态预测”来动态地预测未来结果、引进“环境干涉因子”修正预测结果,对血吸虫病各项疫情指标进行了中长期预测. 结果显示,近期预测结果得到证实,未来预测将进一步验证.

  本研究结果显示集成试点灰色预测法预测的平均绝对误差、平均相对误差和误差平方和最小;濠口试点平均绝对误差、误差平方和以ARIMA法最小,平均相对误差以自回归法最小. 因而可以认为不同的试点适用于不同的预测模型. 集成试点以灰色预测法效果最好,濠口点ARIMA法效果最好,两者比较退田还湖前后的发病预测值变化趋势结论一致.

  本研究存在的问题为样本量小、应用的拟合方法本身有其固有的局限性等,拟合结果有待进一步验证.

  【】

  [1]徐国祥. 统计预测与决策[M]. 上海:上海财经大学出版社,1998:158-162.

  [2]丁守銮,康家琦,王洁贞.ARIMA模型在发病率预测中的应用[J]. 统计, 2003,10(1):23-26.

  [3]张彦琦,黄彦,田考聪. SPSS在医院统计预测中的应用[J]. 中国医院统计, 2002,9(3):131-134.

  [4]张蔚,张彦琦,杨旭. 时间序列资料ARIMA季节乘积模型及其应用[J]. 第三军医大学学报,2002,24(8):955-957.

  [5]冯丹,罗艳侠,鲍卫华,等. 流行性脑脊髓膜炎流行特征的灰色预测模型[J]. 数理医药学杂志,2003,16(2):97-99.

  [6]黄春萍,倪宗瓒. 灰色模型在预测肺结核发病率中的应用[J]. 预防医学,2002,29(6):791-793.

  [7]蔡碧,李建屏,任先平,等. 血吸虫病灰色预测的研究[J]. 中国血吸虫病防治杂志,2000,12(2):80-85.