Possion回归模型分析在不同地区乳腺癌发病率比较中的应用

来源:岁月联盟 作者: 时间:2010-07-12

                   作者:沙海滨 贺圣文 陈景武 曹伟燕 王园园 

【摘要】  据国际抗癌协会资料统计,乳腺癌是女性发病率较高的恶性肿瘤之一,全世界每年约120万妇女发病。其中,我国妇女乳腺癌的发病率呈上升趋势,成为危害女性健康的主要杀手,尤其是沪京津和沿海地区是我国妇女乳腺癌的高发地区。为了掌握乳腺癌的地区流行病学特点, 探讨有效的干预措施,进一步做好妇女保健工作,以2000~2005年北京和成都部分区县妇女病抽样调查结果为资料来源进行乳腺癌的possion回归模型分析,比较两地妇女乳腺癌发病的地域差异。

【关键词】  Possion回归模型分 乳腺癌发病率 地区差异


  1  研究资料与方法

  1.1  资料来源[1,2]

    资料源于2000~2005年北京和成都部分区县妇女病抽样调查结果,两地均采用整群抽样,调查项目基本一致,数据资料准确可靠,见表1。表1  2000~2005年北京和成都部分区县妇女乳腺癌(略)

  1.2  研究方法

    表1显示观察人数多,但是发病人数少,可以认为该病发生是小概率事件,且具有独立性,而possion分布作为二项分布的一种特例,已成为描述小概率事件发生性的一种重要分布,它可以用来分析医学上诸如人群中遗传缺陷、癌症等非传染性疾病的发病情况,同时,每个样本都是相对独立的,这些都符合possion回归模型分析的应用条件,所以,我们采用此方法分析数据。本研究为了分析乳腺癌发病的地区差异和年份变化,以发病情况y为应变量,设y=1表示发病,y=0表示未发病;以年份x为协变量,由远及近分别赋值1,2,…,6;同时,城市z也为协变量,设z=1表示北京,z=2表示成都。采用SAS编程分析数据,在SAS数据步中建立了6个哑变量。方法介绍如下:

  1.2.1  possion回归模型[3]

    Possion 回归模型是用来分析服从possion分布的随机变量y的均数与协变量之间变化关系的一种回归模型。记p个协变量为x1,x2,…,xp ,则possion回归模型的一般形式为:

    μ=eβ0+β1x1+β2x2+…+βpxp=eβ0+?pj=1βjxj 
   
  其中,式中参数μ为总体均数,β1,β2,…,βp 是模型中待估计的未知参数。显然,eβ0 表示当所有的协变量均为0时,相应的possion分布的总体均数。

  1.2.2  模型的参数估计

    根据函数关系表达的形式,式μi=∏kj=1exp(βjxji)和lnμi=∑kj=1βjxji 分别被称作乘法模型和加法模型。Possion乘法模型与possion加法模型的最大区别在于自变量对事件发生数的影响形式,前者是指数相乘的,后者是线性叠加的。前者将自变量的线性预测区间(-∞,+∞) 变换到(0,+ ∞),保证了平均事件数的估计为正数;而后者所得平均事件数的估计就是自变量的线性预测,因此可能是负的,特别是在平均事件数较小的情形。故在应用上受到限制。实际应用时多采用possion乘法模型[4]。其中,这两者都仅βj 是未知参数,可采用最大似然法进行估计[5,6]。似然函数的构造如下:

    L=∏f(Yi)=∏(eβ0+∑βjxj)yie-eβ0+∑βjxj∏Yi !
   
  将式两边取以数e为底数的对数,并就lnL分别对β0,β1,…,βp 求偏导数,并令其等于零得到p+1个方程,采用迭代法解此方程组,即得参数β0,β1,…,βp 的估计b0,b1,…,bp 。

  1.2.3  模型拟合优度评价与模型选择[3]
   
  实测数据拟合模型的好坏,可通过如下的x2 统计量进行检验:

    χ2=-2{ lnL(当前模型)- lnL(饱和模型)}

    它的自由度df=(样本容量-当前模型中独立参数独立参数的个数) 。拟合优度χ2 统计量值越小,对应的p值越大,表明数据拟合模型的效果越好。一般而言,p>0.05即可认为所给资料拟合相应的possion回归模型是合适的。这里,式中的饱和模型是指模型的自由度等于模型中独立参数的个数。

  1.2.4  Possion回归模型的相对危险度估计

    根据相对危险度的定义,在其他协变量不变的条件下,协变量xj 每增加一个单位所引起相对危险度的估计值为:
    RRj=ebj

  而RRj 的95%置信区间为:ebj±1.96SE(bj) 。其中,SE(bj) 是bj 的标准误[3]。

  2  SAS分析结果及解释

    表2中,应变量Y的取值排序是1和0,所以拟合的是y=1的概率模型,即拟合的是乳腺癌发病的概率模型。表2  应变量取值排序(略)

    表3是对模型成立与否进行检验。首先,若总体之间无差别,则不拒绝原假设,即可认为该模型拟合的较好。其次,结果中似然比的χ2 值为291.7072,score的χ2 值为328.4739,p值均小于0.05,故可推翻无效假设,认为模型成立。即协变量z 起作用,即地区差异明显,表明北京和成都两地部分区县妇女乳腺癌的发病率有显著性差异。表3  模型是否成立检验表(略)

    表4给出了模型参数的估计,对于模型的截距intercept(即b0 )和协变量z 、x 分别给出了自由度DF、参数估计值、标准误差、wald χ2值、概率。表4  模型参数的最大似然比估计(略)

    这里,协变量均有P<0.01 ,拒绝无差别的原假设,结论有统计学意义,即年份和地区作为协变量在possion回归模型中都起作用,故可认为不同的年份,以及不同的地区妇女乳腺癌的发病水平有显著性的差异。本例中,北京部分区县妇女乳腺癌发病的相对危险度远远高于成都部分区县,说明两地妇女乳腺癌的发病具有明显的地域差异。同时,在协变量年份中,2001~2004年这4年与2000年相比,其wald χ2值呈逐年增大趋势,说明其发病率越来越高,而2005年的wald χ2值减少,可能与采取相应的防治措施有关。
   
  变量z 的回归系数估计值是-1.9716,说明成都相当于北京的妇女乳腺癌发病的相对危险度为RR=e-1.9716 =0.1392,即成都部分区县的发病率比北京部分区县约低86.08%。

  3  讨论

    本研究以2000~2005年北京和成都部分区县妇女病抽样调查结果为特例进行乳腺癌的possion回归模型分析发现,北京和成都部分区县妇女乳腺癌的发病具有明显的地域差异,前者的发病率远远高于后者。这一结论与当前多数学者认为的“沪京津和沿海地区是我国妇女乳腺癌的高发地区”相符。同时,两地妇女乳腺癌的发病率基本呈逐年上升趋势,应引起相关单位的重视。
   
  目前,女性恶性肿瘤严重影响女性健康,尤其是乳腺癌,其发病率位居女性恶性肿瘤之首。多数循证医学及流行病学的研究已表明,乳腺癌可通过有效普查及早发现[7]。因此,妇女病普查的重要内容是早期筛查乳腺癌及其癌前病变,建议在今后的妇女病普查中,加强对良性乳腺疾病的和随访,不断改进对乳腺癌的检查技术和手段,同时,要加强乳腺疾病防治的健康,加强高危人群管理,使广大妇女掌握乳腺的自检方法,这是乳腺癌防治的重要方法。

【】
    1 刘丽,丁辉,王连英,等.北京地区2000~2005年妇女病普查结果分析.全科医学,2006,8:1275~1280.

  2 刘莉,李玮.2000~2005年成都地区妇女病普查结果分析.中国妇幼保健,2007,9:2924~2925.

  3 张家放,主编.医用多元统计方法.武汉:华中科技大学出版社,2002,158~159.

  4 陈峰.医用多元统计分析方法.北京:中国统计出版社,2000,125.

  5 Cameron,A.Colin,Pravin K.Trivedi.Regression Analysis of Count Data.NewYork:Cambridge University Press,1998.

  6 Powers,Daniel A,Yu Xie.Statistical Methods for Categorical Data Analysis.San Diego:Academic Press,2000.