负二项回归和Poisson回归在改水降氟效果中的对比分析
作者:楚慧珠 郜艳晖 邹宇华 李伯灵
【摘要】 目的: 探讨存在过度离散现象时离散数据的回归分析方法。方法:比较负二项回归和Poisson回归在改水降氟效果评价资料的分析结果和拟合优度。结果: Poisson回归低估参数估计的方差,负二项回归拟合优度较高。结论:负二项回归可用于分析存在过度离散现象的离散数据。
【关键词】 负二项回归; Poisson回归; 过度离散; 地方性氟斑牙
Poisson回归常用于研究一个或多个自变量对事件发生强度的影响,这时模型要求结局变量服从Poisson分布,即事件的发生是独立的,且具有总体均数和总体方差相等的特征。但在医学研究中,很多事件的发生是非独立的,如传染性疾病、遗传性疾病、地方性疾病等等。这种资料的特点是观察到的变异(方差)往往大于Poisson分布的变异,即出现过度离散现象(over-dispersion)。一般来说,对此类资料可基于负二项分布,用负二项回归的方法来分析各种因素对事件发生强度的影响。本研究对广东省潮阳市的改水降氟资料,用负二项回归方法评价改水措施对降低小学生氟斑牙患病率的效果,并与Poisson回归进行比较。
1 材料与方法
1.1 调查对象和内容
调查对象为广东省潮阳市13个镇67个村共27840名小学1~6年级在校学生。检查在校学生氟斑牙情况(诊断方法采用三型九度法[1]),并调查各村改水年限,测定各村自来水和手压井水氟含量(水氟测定方法采用氟离子电极法)。
1.2 模型理论
负二项分布[2]是当Poisson分布中强度参数λ服从Γ分布时得到的复合分布。在Poisson分布中,λ是一常数;在负二项分布中,λ是一服从Γ分布的随机变量。因此负二项分布又称为Γ-Poisson分布。在Poisson分布中,事件数的方差等于λ;但在负二项分布中,事件数的方差等于λ(1+kλ),其中k称为负二项离散参数[3]。当k=0时,说明事件发生是随机的,此时负二项分布退化为Poisson分布;当k≠0时,说明事件的发生不独立因而存在着聚集性。当研究多个自变量对结局变量的影响时,可利用回归分析的思想。负二项回归模型与Poisson回归模型类似,也是对事件发生强度λ建模:
log(λ)=β0+β1x1+β2x2+…+βmxm
式中,回归系数βi表示在控制其他自变量的情况下xi对事件发生强度的影响大小。回归系数和离散参数可通过最大似然估计得到。模型的拟合优度可采用Pearson χ2检验和Deviance残差图来评价。
1.3 统计分析
利用SAS/STAT8.1中的PROC GENMOD模块拟合Poisson回归和负二项回归,误差分布分别指定为Poisson分布和负二项分布(NB),连接函数用对数连接。
2 结果与分析
以小学生的氟斑牙患病人数作为结局变量,调查人数作为偏移变量(offset variable)。考虑的影响因素包括各村改水年限(年)、学生年级(1~6年级)、性别、各村自来水中氟含量(mg/L)和手压井水氟含量(mg/L)。改水年限不足1年者以0.5年估计。表1列出拟合负二项回归和Poisson回归的参数估计结果。
改水年限对小学生氟斑牙患病强度的影响有统计学意义,改水时间越长,氟斑牙患病强度越低。高年级学生与低年级学生相比,氟斑牙患病强度较高,有统计学意义。但性别因素对氟斑牙患病没有影响。此外,在居民饮水中,自来水中氟含量对氟斑牙患病强度没有影响,但手压井水中氟含量越高,小学生氟斑牙患病强度也越高,有统计学意义。负二项回归模型中离散参数k的估计值为0.2663(95% CI:0.2216,0.3199),与0差异有统计学意义,提示氟斑牙的发生是不独立的,存在地方性聚集现象。表1 改水降氟效果评价的负二项回归和Poisson回归模型注:* 为离散参数k的95%可信区间。
比较负二项回归和Poisson回归参数估计结果,改水年限、学生年级和手压井水氟含量的回归系数在两种模型中估计比较近似,但Poisson回归估计中相应的参数方差(或标准误)较负二项回归估计偏低,因此假设检验χ2值偏大。对自来水氟含量的回归系数,Poisson回归模型的参数估计值为-0.3405,尽管没有达到统计学意义,但参数的方向背离了专业解释。从Pearson χ2拟合优度检验结果可以看到,Poisson回归有较大的Pearson χ2统计量,p<0.0001,拟合效果很差;而负二项回归Pearson χ2统计量较小,p=0.7048,表明较好的拟合优度。图1为改水降氟资料的负二项回归和Poisson回归的Deviance残差图。可以看到,由于负二项回归可以较好的拟合模型,因而残差绝对值较Poisson回归的残差绝对值小,即负二项回归残差有向0点收缩的趋势。
3 讨论
医学研究中,许多疾病由于遗传性、传染性、地方性或其它不明原因而导致不独立,如具有家庭聚集性的乙型肝炎,本研究中的地方性氟斑牙资料等。此类资料中,常常出现经验方差大于假定模型(如二项分布或Poisson分布)下的方差,即表现为过度离散现象。从统计学角度上说,过度离散表明所假定分布的均数和方差的关系不正确。这时直接拟合二项分布或Poisson分布并不恰当,其后果取决于过度离散程度的轻重。一般来说,过度离散现象并不影响回归参数的估计,但会低估参数的方差(协方差),如表1所示,从而导致统计推断时第一类错误增加,因此需要对参数的方差(协方差)予以校正。另外,表1显示自来水中氟含量的回归系数Poisson回归估计反向的原因还有待于进一步考察。
尽管过度离散现象也会出现在连续性比例数据[4],但更常见的还是在离散数据。在离散数据模型中,负二项分布常用于拟合非独立资料,通过估计离散参数来考察事件的聚集程度。而基于负二项分布的负二项回归更可以同时估计自变量对事件发生强度的影响和离散参数,因此可作为存在过度离散现象数据的常规分析手段之一。目前,调用SAS/STAT软件中的PROC GENMOD过程可用于检验过度离散现象,并实现各种广义线性模型(包括Logistic回归,Poisson回归和负二项回归等)的参数估计和拟合优度检验,以判断模型的适用性。
【】
1 戴国钧,主编. 地方性氟中毒.呼和浩特:内蒙古人民出版社,1985,119~121.
2 陈峰,编.医用多元统计分析方法.北京:统计出版社,2001,31~95.
3 SAS OnlineDoc,Version 8.SAS/STAT User’Guide..
4 方积乾,主编. 医学统计学. 北京:人民卫生出版社,2001.