医学研究方差分析模型中效应量的探讨
作者:李运明,袁天峰, 陈长生,曹文君, 赵东涛, 潘峰 李晨
【摘要】 目的:探讨医学研究中方差分析常用的效应量标准均数差的方法. 方法:针对不同的实验设计类型,给出标准均数差的计算方法. 结果:不同设计的研究间,相同干预的标准均数差具有可比性. 结论:生物医学报道效应量是未来的趋势,研究者应正确计算和解释标准均数差,避免和减少效应量的误用.
【关键词】 方差分析;效应量;标准均数差;假设检验
0引言
效应量(effect size)是一类用来描述处理效应的统计量. 在20世纪60年代,生物统计学家(Cohen, 1965; Hays,1963)就强调效应量的应用,认为效应量是假设检验的补充[1]. 然而医学领域的绝大多数的研究者在报道结果时,往往仅提供假设检验的P值[2-3]. 1996年美国心会(APA)的统计推断机构TFSI建议报道研究结果时应同时提供处理效应的方向、大小及其的可信区间[4]. 1998年Wilkinson和TFSI 建议对于主要结果必须报道效应量,即报道P值时同时应报道效应量[5]. 2001年美国心理学会(APA)科研论文发表手册上规定:论文的结果部分必须报道效应量[6]. 至今已有24种心理学、医学期刊要求研究者投稿时报道效应量[7]. 国内教科书对Meta分析所涉及的效应量作了简单介绍,但对效应量的系统研究很少. 依资料类型和研究设计的不同,效应量又有很多种类,我们主要研究方差分析(ANOVA)模型中常用的一类效应量-标准均数差(stan?dardized mean difference).
1材料和方法
1.1材料为研究不同的实验设计类型的标准均数差的计算方法,我们采用了Bauman等[1]人的实验数据(表1). 该实验采用前后测量设计研究了66名四年级学生不同阅读习惯对理解能力的影响. 阅读习惯(研究干预)分为:单纯朗读(TA),阅读并积极思考(DRTA),阅读(DRA),其中DRA为对照组. 理解能力用错误检测任务(EDT)的得分表示,干预前后两次测量结果用EDT1, EDT2表示. 该研究考虑了一个控制因素(即研究前的理解能力):各组前两列的学生研究前理解能力较低,后两列理解能力较高.
1.2方法在统计分析中,需要解决均数的对比(contrast)问题,即一个研究有J个处理组,则均数的对比可以表示为:
Ψ=c1μ1+c2μ2+…+cJμJ(1)
其中, c1+c2+…+cJ=0. Ψ=μi-μj是最常见的对比. 对比含有量纲,与反应变量的量纲相同,不能直接用于不同研究间比较;而标准均数差无量纲,可用于不同研究间比较的效应量. 按反应变量的不同,可将标准均数差分为单变量和多变量标准均数差. 不同设计标准均数差计算方法如下:表166名四年级学生接受不同干预后EDT得分情况
1.2.1单变量标准均数差
1.2.1.1单因素完全随机设计该设计的处理因素有J个水平,实验拟研究的问题可表示为对比(1),其标准均数差为:
δ=Ψ〖〗σ(2)
总体参数δ的估计方法:用样本均数x估计总体均数μ, σ可以用准则一中的一种方法进行估计. 准则一:a设计中的某个处理组的标准差,常用对照组的标准差;b对比中所有处理组的合并标准差;c设计中所有处理组的合并标准差.
当对比中包含所有的处理组时,b, c得到的σ估计值相同,并与ANOVA分析中误差均方(MSE)正的平方根相等. 当所有处理组满足方差齐性条件时,c法是估计σ的最佳方法;当不满足时,用a法估计. Hedges指出按照准则一估计的标准均数差是δ的有偏估计,需要乘以系数1-3/(4df-1)进行校正,其中df为用于估计σ的标准差或合并标准差的自由度[8].
1.2.1.2多因素设计该设计的因素可为干预因素(处理因素)和控制因素(非研究因素、混杂因素). 当所有因素均为干预因素时,标准均数差的计算与单因素完全随机设计相同. 多因素实验中若含有控制因素,如将控制因素与干预因素不加区别,按照准则一计算标准均数差时,会出现相同干预的效应量在不同实验设计间不可比的问题[1]. 根据所研究对比的特征,标准均数差的计算方法不同,如以2×2析因设计为例,见表2. 设实验含有:处理因素A(a1,a2),控制因素B(b1,b2).
表2含有控制因素的多因素设计标准均数差的计算方法
分析目的〖〗对比〖〗标准均数差的计算方法干预因素A的主效应〖〗Ψ=1〖〗2(μa1,b1+μa1,b2)-1〖〗2(μa2,b1+μa2,b2)〖〗准则二:a. 按照干预因素分组,计算各组的标准差;b. 用准则一中的一种方法估计σ.干预因素A在b1水平
的单独效应〖〗Ψ=μa1,b1-μa2,b1〖〗同准则二.因素A与B的交互作用〖〗Ψ=(μa1,b1-μa2,b1)-(μa1,b2-μa2,b2)〖〗同准则二.控制因素B的主效应〖〗Ψ=1〖〗2(μa1,b1+μa2,b1)-1〖〗2(μa1,b2+μa2,b2)〖〗准则三:a. 按照干预因素及对比中含有的控制因素分组,计算各组的标准差;b. 用准则一中的一种方法估计σ. 控制因素B在a1水平的
单独效应〖〗Ψ=μa1,b1-μa1,b2〖〗同准则三.
多因素实验研究的对比可能仅含有控制因素,不含有处理因素,如在2×2×2析因设计中,对比为:
Ψ=1〖〗2(μb1,c1+μb1,c2)-1〖〗2(μb2,c1+μb2,c2)(3)
其中,A为处理因素,B, C为控制因素. 仅含有控制因素对比的标准均数差计算方法:a按照实验研究的控制因素分组,计算各组的标准差,在对比(3)中,按照因素B分组;b用准则一估计σ.
1.2.1.3含有协变量的多因素设计协方差分析(ANOCVA)通过建立协变量与反应变量的线性回归关系,对各组的反应变量的均数进行校正后,再进行假设检验. ANOCVA标准均数差的计算方法为:用样本校正均数xc估计总体均数μ,将协变量作为控制因素,按照准则二来估计σ.
1.2.1.4含有重复测量因素的多因素设计含有重复测量因素的设计可分为:①仅含有1个或多个重复测量因素的设计;②含有重复测量因素和观测间因素的设计. 因为重复测量因素为处理因素,所以①中不存在控制因素引起的相同处理的效应量在不同实验设计间不可比的问题,标准均数差的计算方法,与因素为处理因素的设计相同. 含有重复测量因素和观测间因素的设计计算标准均数差时,将重复测量因素作为处理因素,如观测间因素含有控制因素按照表2中准则二或三计算.
1.2.2多变量标准均数差马氏距离在多元方差分析中即是一种多变量标准均数差. 马氏距离公式为:
D=d′R-1d
其中,d为单变量标准均数差向量,R为合并的组内相关矩阵. 实际计算中,马氏距离可以由多元检验统计量Wilks?s Λ计算得到:
D=df(1-Λ)Σk〖〗i=1c2i/ni〖〗Λ(4)
其中:k为处理组数, ci, ni分别为i组对比系数和样本量. df的计算公式为:df=Σni-k.
1.2.3标准均数差的解释标准均数差的解释准则不多,因为医学研究领域所涉及的内容很广泛,想给出普遍适用的准则,需要冒很大风险. Cohen建议标准均数差为0.2时,效应为小,0.5为中等,0.8为大. 如果样本满足正态分布,总体间重叠的比例(percent of overlap, OL%),有助于标准均数差的解释. 若处理组与对照组的标准均数差为0.70,那么可认为处理组50%的研究对象反应变量值大于对照组76%的研究对象的值(图1).
图1标准均数差与OL%示意图
2结果
Bauman等人的研究关心阅读方法TA和DRTA的平均效应与DRA的差别(对比Ψ1)以及阅读方法TA与DRTA的差别(对比Ψ2).
Ψ1=1〖〗2(μTA+μDRTA)-μDRA, Ψ2=μDRTA-μTA.
若仅考虑EDT2和干预因素(阅读习惯),本例的研究设计为单因素完全随机设计. 表3为各组的均数和标准差,表4为对比Ψ1, Ψ2的标准均数差. 按照Cohen准则,两对比均为中等效应. 校正后Ψ2的效应量为0.697,可认为50%阅读并积极思考的学生的EDT成绩高于76%的单纯朗读的学生成绩.表3各组EDT1, EDT2成绩表4单因素完全随机设计标准均数差
若将EDT2作为研究的反应变量,考虑干预因素A和控制因素B(阅读能力),本例为析因设计. 为了便于公式的演算,假设干预因素为两水平(TA, DRTA),本例研究干预因素、控制因素的主效应、单独效应及两因素的交互作用. 这些效应的可以用表2中相应的对比表示,其标准均数差的见表5.表5多因素设计各组EDT2成绩及标准均数差
若将EDT2作为研究的反应变量,考虑干预因素,并将干预前的测量结果EDT1作为协变量,本例为含有协变量的单因素设计(协方差设计). 通过协方差分析,各组校正后的均数见表6. 按照校正均数计算对比Ψ1, Ψ2的标准均数差,见表6.
将EDT作为研究的反应变量,考虑干预因素和重复测量因素,干预前后EDT做了两次,重复测量因素有两水平,本例为含有1个重复测量因素的两因素设计. 不同阅读方式的效应用两次测量的差值表示,两对比Ψ1, Ψ2可以表示为:表6各组EDT2成绩及标准均数差
Ψ1=1〖〗2(μEDT2,TA-μEDT1,TA)+1〖〗2(μEDT2,DRTA-μEDT1,DRTA)-(μEDT2,DRA-μEDT1,DRA),
Ψ2=(μEDT2,DRTA-μEDT1,DRTA)-(μEDT2,TA-μEDT1,TA).
根据表3,可计算对比Ψ1, Ψ2的标准均数差分别为1.018, 0.439.
将EDT1, EDT2作为研究的反应变量,考虑干预因素,本例为多元单因素完全随机设计. 对比Ψ1,Ψ2中的μ为均数向量,检验统计量Wilks?s Λ,可以用SAS/GLM CONTRAST计算得到[9]. 由公式(4)可计算对比Ψ1,Ψ2的多元标准均数差D分别为1.228, 0.689.
3讨论
标准均数差是方差分析模型中常用的一类效应量,也是目前心、医学研究领域和Meta分析中最常用到的效应量. 本文按照不同的实验设计,考虑相同干预不同设计间效应量的可比性,介绍了标准均数差的计算方法,给出了相应的计算准则,并给出了实例. Meta分析常遇到研究干预相同、研究设计不同的情况下,效应量的计算问题. 本文介绍的标准均数差的计算方法可以很好的解决这一问题. 另外,本文介绍的标准均数差的计算可适用于两组和多分组的情况,有些资料和上针对两组资料的比较对标准均数差进行介绍. 专用于两组比较的标准均数差有:Cohen?s d,Glass?s Δ,Hedges?s g和Cohen?s f2 [10].
尽管APA和24种期刊要求研究者进行假设检验时,必须报道一种或多种效应量作为其补充,但是对效应量能否帮助研究者或读者提供有关干预效应有无实际意义的信息,也有统计学家提出疑问[1]. Cohen对标准均数差解释制定的准则,能否适用医学研究领域,也存在争议. Cohen也建议统计学者制定其他的准则来解释标准均数差. 目前,国内的生物医学期刊还未要求报道效应量,国外对效应量的研究和报道较多,尤其是在心理测量领域的研究,并有关于效应量误用的分析报道,因此我国生物医学要求报道效应量是未来的趋势.
【文献】
[1] Olejnik S, Algina J. Measures of effect size for comparative studies: Applications, interpretations, and limitations[J]. Contemp Educ Psychol, 2000,25(3):241-286.
[2] Glaser DN. The controversy of significance testing: Misconceptions and alternatives[J]. Am J Crit Care, 1999,8(5):291-296.
[3] Cohen J. The earth is round (P<0.05) [J]. Am Psychol, 1994,49(12):997-1003.
[4] http://www.apa.org/science/tfsi.html.
[5] Wilkinson L. Task force on statistical inference APA board of scientific affairs. Statistical methods in psychology journals: Guidelines and Explanations[J]. Am Psychol, 1999,54(8):594-604.
[6] American Psychological Association. Publication manual of the American Psychological Association[M]. 5th ed. Washington: American Psychological Association Press,2001:1-5.
[7] http://www.coe.tamu.edu/bthompson.
[8] Hedges LV. Distributional theory for Glass?s estimator of effect size and related estimators[J]. J Educ Stat, 1981,(6):107-128.
[9] 胡良平. 统计学与SAS应用[M]. 北京:军事医学出版社, 2000: 146-150.
[10] Rosnow RL. Effect sizes for experimenting psychologists[J]. Can J Exp Psychol, 2003,57(3):221-237.