混合效应线性模型与单因素方差分析在重复测量数据中的应用比较
【关键词】 重复测量;混合效应线性模型;单因素方差分析;
摘要:目的: 通过混合效应线性模型与单因素方差分析在重复测量资料中的应用比较,旨在说明两方法在处理重复测量资料时的应用特点。方法: 用混合效应线性模型和单因素方差分析处理重复测量资料并比较。结果: 混合效应线性模型和单因素方差分析都是处理重复测量资料的重要统计方法,前者在选择协方差结构下可对重复测量资料的固定效应和随机效应参数及协方差矩阵进行参数估计和统计检验,后者可对重复测量资料的固定效应做出统计推断。结论: 混合效应线性模型是处理重复测量资料的有力方法,它对资料的协方差结构要求宽松,且结论可靠;单因素方差分析对资料的协方差结构有严格的限定。
关键词:重复测量;混合效应线性模型;单因素方差分析;
统计方法特点 重复测量数据(repeated measures data)是医学领域中常见的一种数据资料。所谓重复测量是指对同一个观察对象在不同时间点上进行的多次测量[1]。由于重复测量资料是对同一受试对象的某一观察指标进行的重复观察所得的数据,同一受试者的观察数据间可能存在相关性,一些传统的统计学方法如t检验等就不能充分揭示这一内在特点,有时甚至会导致错误的结论。
对重复测量资料的分析方法大致可分为两类,即单变量统计分析方法和多变量统计分析方法[2]。本研究通过选用多变量统计分析方法中的混合线性效应模型对一例题的分析,并与单因素方差分析进行比较,来说明两种方法在处理重复测量资料中的应用特点。
1方法简介
简单说,混合效应线性模型就是所拟和的模型中既包含固定效应又包含随机效应,特别是个体内的数据结构的选择将对各因素的评价产生直接影响[3]。
混合效应线性模型是一般线性模型的扩展,其表达式为:
Y=Xβ+Zγ+ε(1)
X为已知设计矩阵,β为固定效应参数构成的未知向量,ε是未知的随机误差向量,其元素不必为同独立分布了。在式(1)中Y,γ都是正态随机向量,其均值为0,方差阵分别为G与R,二者之间不相关,因此Y的方差表达式为:
V=ZGZ+R(2)
当R=σ2I,Z=0时,混合线性模型退化为一般线性模型。对G和R必须选择其协方差结构,常用的结构有无结构(一般为协方差)、自回归(常用一阶)、复合对称(共同协方差加一对角元)等[4]。选择协方差矩阵的方法是在相同的结构模型下,选择几个不同结构的协方差矩阵,从中选取似然比统计量(-2Log Likelihood)、Akaikes 信息量标准(Akaikes Information Criterion,AIC)及Schwarts Bayesian标准(Schwarts Bayesian Criterion ,BIC)较小的一个,当这些统计量较接近时,则选取含参数个数最少的一个。通常以AIC为主要判断指标。
2实例分析
下面用一实例比较两种方法对处理重复测量资料时的特点:某药有新旧两种剂型,为了比较这两种剂型的代谢情况,对16例病人服药后分别在0、4、8、12小时测得血药浓度(表1),问该药新旧剂型的血药浓度随时间变化的趋势是否一致。表1四个时间点某药新旧剂型血药浓度1用SAS软件的MIXED过程对固定效应和随机效应参数β、γ及协方差矩阵G、R进行估计和统计检验。在本例中因变量为血药浓度,药物剂型、测量时间为固定效应,受试者为随机效应,同时选择合适的协方差结构以便在控制随机误差的基础上分析处理因素(药物剂型)对反应变量(血药浓度)的关系。本例指定为常用的无结构协方差(UN)和复合对称性协方差(CS)。
模型拟合情况见表2。表2模型配合统计量由表2可见,在UN结构下协方差配合的似然比统计量-2Log Likelihood=398.0(表2),对无效模型的似然比检验,χ2=134.43,ν=9, P<0.0001,说明模型拟合效果显著,模型较好地拟和了资料。在CS结构下,似然比统计量-2Log Likelihood=506.4,AIC、AICC、BIC三个值都是UN模型小于CS模型,故本例选用UN结构作模型拟合。
在UN结构下的固定效应参数估计值及假设检验结果见表3、4。
由表4可知,在UN结构下,不同处理组之间的差别无统计学意义(P=0.07551),不同测量时间点的血药浓度及处理组×时间点的交互作用的差别有统计学意义(P<0.0001),且这种交互作用主要体现在新剂型组。
22应用SAS 软件的GLM过程,对表1的资料处理结果见表5。由表5可见,各处理组间时间因素间无差别,服从精确F分布,本例F处理组=0.09,P=0.77可见其处理组主效应与时间因素无关。
主效应F时间点受协方差矩阵类型分布影响,球形检验的近似χ2=27.0284,ν=5,对应P=0.0001,不符合球形假定,故须对分子分母的自由度进行校正,用H-F=0.8469作为校正因子,得:
分子的校正自由度为:
ν1=(p-1)=0.8469(4-1)=0.8469×3=2.54073
分母的校正自由度为:
ν2=(p-1)(∑m g=1(ng-1))=0.8469×3(14)=35.569836
查表得F0.05(3,36)=2.87<74.97,P<0.0001,可认为不同时间点的血药浓度是不同的。
交互效应F处理组*F时间点也涉及时间点这一重复测量因子,故也要对其分子分母的自由度进行校正:
分子的校正自由度为:
ν1=(m-1)(p-1)=0.8469(2-1)(3-1)=1.69382
分母自由度校正同上, ν236
F0.05(2,36)=3.26<46.90,P<0.0001,可认为不同组在不同时间点的血药浓度是不同的。表3固定效应的参数估计与比较表5单因素方差分析结果
3讨论
由两种方法对同一资料的处理可见,两种方法的结论一致,但混合效应线性模型既考虑了观察对象在不同观察时点间的内在联系,又考虑了观察值间的内部相关性,结论更为可靠。
单因素方差分析和混合效应线性模型都可用来处理重复测量资料,单因素方差分析是应用最小二乘法进行配合的一般线性模型,此模型对协方差矩阵有着极端的假定,如果协方差阵的球形性得不到满足,就必须进行多元方差分析或对F统计量进行校正,获得校正概率;混合效应线性模型是基于似然函数法的原理,它对协方差矩阵的要求比单因素方差分析宽松,它允许资料存在某种相关性及协方差矩阵的多样性,无须对自由度进行校正,能较好的适合重复资料的特点。
单因素方差分析很难估计参数,混合效应线性模型可以在所选择的协方差结构下,估计固定效应及随机效应参数,还可以估计随机参数及随机误差的协方差阵G和R,所以应用范围广,即使常规分析模型,亦可作为其特例来应用[6]。
在配合混合效应线性模型时要根据研究目的和资料特点选择一种模型,然后在此模型下选择合适的协方差结构,只有选择合适的协方差结构对固定效应参数的估计和推论才有意义。
1余松林,主编. 重复测量资料分析方法与SAS程序 第一版 北京:出版社,2004,1.
2陈长生,徐勇勇,曹秀堂. 医学研究中重复测量数据的统计分析方法. 卫生统计,1996,13(6):55.
3胡良平 如何比较重复测量结果 中华预防医学杂志, 2003, 37(4): 294
4周天枢, 洪荣涛, 陈崇帼,等. 用混合线性效应模型处理复合测量数据的方法分析脑血管病死亡率中国卫生统计, 2001,10(5):287.
5方积乾,主编 医学统计学与电脑实验第二版上海:上海科学技术出版社, 2002,401.
6周天枢,洪荣涛, 陈崇帼,等. 用混合线性效应模型处理复合测量数据的方法分析脑血管病死亡率 中国卫生统计, 2001,10(5):288 .