传染病发病数资料的EM估计

来源:岁月联盟 作者: 时间:2010-07-13

                     作者:叶小华 周舒冬 李丽霞 李燕芬

【摘要】  目的: 旨在探讨EM算法在具有链结构的传染病发病数资料分析中的应用。 方法: 借助EM算法,对4口之家的麻疹发病数资料分别拟合Greenwood链二项分布模型和Reed?Frost链二项分布模型。模型拟合效果的比较采用Pearson χ2检验。 结果: 基于Greenwood链二项分布模型时,家庭内麻疹感染率为29.08%;而基于Reed?Frost链二项分布模型时,家庭内麻疹感染率为34.67%。Reed?Frost链二项分布模型的拟合效果优于Greenwood链二项分布模型。结论: 采用EM算法处理和分析传染病发病数资料更简便易行。

【关键词】  EM估计 传染病资料 链二项分布模型 流行链

  (Department of health Statistlcs ,Guangdong College of Pharmacy, Guangzhou 510310 )Abstract  Objective: To explore the use of E?M algorithm for the analysis of chain infectious disease data on outbreak size.  Methods: With the E?M algorithm,the Greenwood and Reed?Frost chain binomial models are fitted for infectious disease data on measles outbreak size in household of size four. Results:  Based on Greenwood chain binomial model,the infection percent is 29.08% . Based on Reed?Frost chain binomial model,the infection rate is 29.08%. The Reed?Frost chain binomial model fitted better than the Greenwood chain binomial model . Conclusions:  E?M algorithm can be employed more flexibly to deal with the infectious disease data on outbreak size.
   
  Key words  Expectation Maximization algorithm; infectious disease data;chain binomial models;   epidemic chain

  传染病资料不同于一般的医学资料,有自身的特殊性:①传染病资料的观察结果之间存在高度的相关性,即非独立性(no?independent);②一般来说,感染过程只能被部分观察。因此分析传染病发病数资料时,极大似然估计往往无显式表达,需要用复杂的迭代法求解。为此,本研究介绍用EM算法(Expectation Maximization Algorithm)分析和处理此类传染病资料。

  1  原理和方法

    EM算法[1~3]是一种数据扩充算法。数据扩充法处理问题的共同点为:不进行复杂的求极值或模拟,运用隐藏数据来扩充观察数据,以得到一个简单的后验分布。主要包括两个迭代计算步:①E?步(求期望步):对扩充数据的似然函数的对数求条件数学期望;②M?步(求最大值步):利用E?步得到的期望值计算参数的校正估计值。反复以上两步,直至前后两次计算结果之差小于预先规定的收敛标准(比如10-5),则停止迭代。
   
  传染病资料来自于发生传染病的观察,一般很难获得能明确划分流行链的资料。相对而言,家庭内部的发病数资料较易获得。下面以4口之家从一个导入病例开始的发病数资料(i0=1,S0=3)为例,谈谈模型参数的EM估计。

  1.1  构造发病人数的概率分布

    首先,要构造各发病人数的概率分布,即将发病人数相同的链概率求和。记家庭中有j个人发病的概率为 θj,那么发病人数的概率分布为:

    θ1=Pr{1→0}=q31

    θ2=Pr{1→1→0}=3q41p1

    θ3=Pr{1→1→1→0}+Pr{1→2→0}=3q1p21(2q31+q2)
    
  θ4=Pr{1→1→1→1}+Pr{1→1→2}+Pr{1→2→1}+Pr{1→3}=p21(6q31p1+3q21p1+3q1p2+p1)
   
  为了洞察疾病传播的本质,有必要对模型中参数间的关系引入两大具有流行病学意义的著名模型:Greenwood模型和Reed?Frost模型[4,5]。Greenwood模型和Reed?Frost模型实际上是链二项分布模型在不同假设条件下的特例。各发病人数的概率分布整理为表1。表中列出了发病人数、各流行链的链二项概率(Chain binomial probabilities)表达式及观察到的实际家庭数。其中p 表示感染率,q=1-p 表示未感染率。表1  4口之家发病数资料Greenwood和Reed?Frost模型的概率分布(略)

  1.2  数据的扩充

    主要运用隐藏数据来扩充观察数据,以得到简单的后验分布。下面以Greenwood模型为例。

    本例观察数据见表2,将资料以概率
  
   [q3,3q4p,3q2p2(2q2+1),p3(6q3+3q2+3q+1)]
分为4类,家庭数分布如下:

    Y=(y1 ,y2  ,y3 ,y4 )

  再将第3类以概率6q4p2 和3q2p2 分成两小类来扩充观察到的数据,同理,将第4类以概率6q3p3 ,3q2p3 ,3qp3 ,p3 分成4小类来扩充数据,扩充后的数据其家庭数分布为:( x1 ,x2 ,x3a ,x3b,x4a ,x4b ,x4c  ,x4d )

  使得:
 
    x1=y1

    x2=y2

    x3a+x3b=y3

    x4a+x4b+x4c=y4

    同理,对表1中Reed?Frost模型的观察数据进行扩充,扩充后的数据整理为表2。表2  4口之家发病数资料扩充后的概率分布(略)
 
  1.3  EM估计的迭代
   
  EM估计主要包括两个迭代计算步:E?步和M?步。下面以Greenwood模型为例。

    E?步:对扩充数据似然函数的对数求条件数学期望
    扩充数据的似然函数为: L(q3)y1(3q4p)y2[3q2p2(2q2+1)]y3[p3(6q3+3q2+3q+1)]y4

似然函数L取对数得对数似然函数Q(q,qi) :
 
  Q(q,qi) =E
  
  [(3y1+4y2+2y3+2xi3a+3xi4a+2xi4b+xi4c)lnq+(y2+2y3+3y4)ln(1-q)|qi,Y]=[(3y1+4y2+2y3+E(2xi3a+3xi4a+2xi4b+xi4c|qi,y))lnq+(y2+2y3+3y4)ln(1-q)]

  这里, i为上标,表示第i次循环。x3a来自n=y3和
  p=6q4p26q4p2+3q2p2=2q22q2+1的二项分布。因此,
  E(xi3a|qi,Y)=2(qi)2y32(qi)2+1 。

  同理, E(xi4a|qi,Y)=6(qi)3y46(qi)3+3(qi)2+3(qi)+1,

     E(xi4b|qi,Y)=3(qi)2y46(qi)3+3(qi)2+3(qi)+1,
    
  E(xi4c|qi,Y)=3(qi)y46(qi)3+3(qi)2+3(qi)+1 。
  
  M?步:计算第i+1步参数q的估计值

  qi+1=3y1+4y2+2y3+E(2xi3a+3xi4a+2xi4b+xi4c|qi,y)3y1+5y2+4y3+3y4+E(2xi3a+3xi4a+2xi4b+xi4c|qi,y)
   
  E?步和M?步反复循环,直至qi 与qi+1之差小于事先规定的值(比如10-5)时,则停止迭代。同理,可对表2中Reed?Frost模型的扩充数据进行EM估计。

  2  结果与分析

    以4口之家从一个导入病例(introductory case)开始的麻疹发病数资料为例(Bailey,1975)[6]。拟合链Greenwood模型和链Reed?Frost模型,参数估计用EM算法,结果见表3 。基于链Greenwood模型时,家庭内麻疹感染率为29.08%;而基于链Reed?Frost模型时,家庭内麻疹感染率为34.67%。模型拟合优度比较用Pearson χ2检验,结果提示Reed?Frost模型的拟合效果优于Greenwood模型。表3  4口之家麻疹资料EM估计结果(略)

  3  讨论

    一般较难获得详细的传染链资料,相对而言,家庭内部的发病数资料较易获得,因此探讨简便的参数估计方法分析此类资料是非常必要的。传统的极大似然法在此类发病数资料的参数估计中往往无显式表达,需要用繁琐的迭代求导过程求解,并且资料的发病数越大,迭代求导过程便越复杂,因此,其应用有一定的局限性。应用EM算法分析该类资料可克服上述缺点,通过数据的扩充,运用简单的两步计算过程(E?步和M?步)快速地估计参数。因此,对传染病发病数资料的分析中值得推广。
   
  在传染病发病数资料的分析中,传统的极大似然法往往受资料所引入模型种类的限制,对Reed?Frost链二项分布模型资料的估计较Greenwood链二项分布模型复杂得多。而EM算法能克服以上缺点,无论是基于Greenwood链二项模型还是Reed?Frost链二项分布模型的发病数资料,都能用简单的计算过程快速估计参数。
   
  实际应用中,EM算法也可应用于调查到详细传染链的传染病资料(即传染链资料),特别是服从Reed?Frost模型的资料。该类资料用传统的极大似然法估计往往无显式表达,迭代计算过程非常复杂,且资料的发病数越大,迭代求导过程便越复杂。而EM算法可克服这些缺点,通过数据的扩充,运用简单的计算过程快速估计参数。因此,对服从Reed?Frost模型的传染链资料的分析中也值得推广。

【】
    1 朱世武,主编.基于SAS系统的计算.北京:清华大学出版社,2004,329~342.

  2 Becker N.G., Britton T. Statistical studies of infectious disease incidence. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 1999, 61( 2): 287~307.

  3 Becker N.G. Use of the EM algorithm in the analysis of data on HIV/AIDS and other infectious diseases. Statistical Methods in Medical Research,1997,6(3):24~37.

  4 荀鹏程,顾海雁,陈峰.链二项分布模型在传染病资料分析中的应用.卫生统计,2005,22(1): 49~54.

  5 Becker N.G. Analysis of Infectious Disease Data. New York: Chapman and Hall,1989.

  6 Bailey,N. T.J. The mathematical theory of infectious diseases and its applications,second edition. London:Charles Griffin and Company,1975,75~121.