发表性偏倚产生与识别方法的可行性论证

来源:岁月联盟 作者:杨书 时间:2010-07-12

【摘要】  本文介绍了发表性偏倚产生及各种识别方法的优缺点,其中,对漏斗图法和失安全系数法做了比较详细的陈述,对不同方法进行了比较。

【关键词】  Meta分析 发表性偏倚

    1  引言

    发表性偏倚(publication bias)是指有统计学意义的研究结果比无统计学意义的研究更容易被投稿和发表[1],致使研究者在做Meta分析查阅资料时,对有统计学意义的研究结果和无统计学意义的研究结果获取的概率不同,从而导致对效应量或因果关联强度的过高估计。发表性偏倚对Meta分析的不良影响,早已引起学界的重视,甚至有学者因此对Meta分析的可行性持怀疑态度[2]。近年来,随着循证医学的快速,很多发表性偏倚的识别方法不断涌现,虽各有优势,但都不尽完善,尚处于探索阶段。本文就发表性偏倚的可能性来源、识别方法的应用等进行探讨,使研究者在做Meta分析时能够尽量避免和正确认识发表性偏倚。

    2  发表性偏倚的可能来源

    能够引起发表性偏倚的因素有很多,依据其产生角度的不同,大致可分成以下几方面。

    2.1  设计方案的选择

    一般来说,为了减少异质性的干扰和便于效应量的合并,大多数Meta-分析都选择纳入随机双盲对照试验的研究,即我们常说的RCT,认为这样的研究设计合理、标准统一且能对其研究质量进行评分[3]。对于观察性研究,比如一些流行病学调查,由于研究条件难以控制,也并不具备RCT研究的上述优点,纳入则容易造成异质性甚至夸大效应量[4],而拒绝纳入则会造成信息损失从而引起更大的偏倚。设计方案上的选择,也会引起发表性偏倚,比如,多因素的研究就可能增加假阳性率,因为每项研究都会首先明确研究目的,因素的纳入往往是为验证这一目的,这就使得研究者对“预期结果”比对“偶然发现”有更高的关注和信任程度,投稿也更容易。另外,一些设计方案受实验结果的影响较大,比如,序贯设计,没有很明确的样本量,研究者为得到阳性结果,往往人为的增加观察时间或样本量,破坏了实验的随机性,从而引起偏倚。小样本研究的方差大、检验效能不高,较大样本又不容易获得阳性结论,研究者常从中选择阳性结论去发表,这样做的结果不仅会夸大对主效应的估计,还会低估方差[5],造成偏倚。大样本的研究,由于经费、人力、物力投入均较多,无论其结果如何,发表的概率都会强于小样本。还有一些研究以出现阳性结果为观察终止点,如果延长观察时间或增加样本量,显著性将受到影响[6],所以,推迟发表也可能降低对主效应的估计。

    2.2  研究者的主观期望

    研究者的科研态度和主观期望都可能会影响结果的真实性。首先,某些研究者为达到目的或急于发表文章,甚至不惜篡改或编造数据,其编造的依照往往是一些已经见刊的阳性结果,这对Meta分析而言,其危害无异于一稿多投。另外,对阳性结果的期望同样会引起偏倚,如果没有出现预期结果或有较大出入,很大程度上会影响研究者投稿的决心。再有,研究者对实验结论的信任程度会引起偏倚,一些非国家的研究者,如果得到阴性结果,可能发表于本国地方性杂志,如得到阳性结果,则更愿意在国际性杂志上用发表,造成语言偏倚[7]。

    2.3  编辑的态度

    编辑的态度对发表性偏倚的产生也起到非常关键的作用。他们往往青睐那些能够指导临床实践、改善预后或者简化过程的研究[8],对阴性结果的文章不感兴趣。阴性结果的文章如要发表,常需经历更加严格的审稿过程,有些甚至被退稿。对同一篇文章的质量,不同的编辑也常有不同的评价,其高低可能相差很远,由此而影响文章的发表或发表的时间。另外,编辑个人的研究领域和交际圈会使其对不同的文章不同的作者给予不同的关注,如果文章所涉及领域与其相近,则编辑的学术观点会影响文章的发表,如果作者是编辑交际圈的成员,则文章的发表常会受到照顾。有一项研究发现,在学位中,阳性结果发表的概率是阴性结果的3~4倍,而一般文章中阳性结果发表的概率则是阴性结果的10倍[9],出现这种差异的原因可能更大程度上是由于编辑的态度而非研究者的主观倾向。

    2.4  资助者的利益

    近年来,研究机构和合作的横向科研项目越来越多,这是一些国家为发展科研、开拓科研经费途径而采取的市场化手段。往往是企业负责经费开支而机构负责论文的撰写和评审,在这过程中,由于背后有巨大的利益驱动,很可能造成发表性偏倚。比如,在医药企业资助的研究中,有89%的报道主张联合用药比单一用药更好,而其他资助来源的报道中,这一比例只有61%[10]。在烟草企业资助的报道中,72%赞成烟草企业的观点,其他非企业资助的报道中只有41%,期刊中的比例更小,仅为20%[11]。国家或官方组织资助的基金项目发生这种现象的概率会小些,但有些研究者在研究过程中由于缺乏把握或信心,认为得到的阴性结果为“不成功”的结果,会因害怕不能通过评审而推迟发表或不发表,由此而引起偏倚。

    3 识别方法

    发表性偏倚对Meta分析产生的巨大危害已越来越引起重视,很多方法也开始应用于识别和处理发表性偏倚,这些方法各有优劣,适用范围不尽相同,下面简单阐述。

    3.1  显著性研究比例

    此法是判断发表性偏倚的最简单的方法,通过所发表的相关研究中有统计学意义的研究所占的比例来推断,如果比例过高,则提示存在发表性偏倚。此法虽然计算简单,但实用性并不强,因为对比例高低的判断没有统一的界定,往往通过主观经验判断,但这本身就可能产生偏倚。

    3.2  漏斗图法

    漏斗图是识别发表性偏倚最常用的方法[12],由于操作简单、直观而被广泛应用。其原理[1]如下:以样本含量(或效应量标准误的倒数)为纵坐标,以效应量(或效应量的对数)为横坐标绘制散点图。其基本假设就是效应量估计值的精度随着样本含量的增加而增加,变异幅度逐渐变窄,最后趋于点状,其形状类似一个倒置的漏斗,如图1[13],故称漏斗图。当存在发表性偏倚时,漏斗图表现为不对称分布。漏斗图方法的使用在学术界一直存在争议,因为可能致使其不对称的原因有很多,比如机会、异质性、效应量的选择、测量精度的选择等,而并不一定是发表性偏倚的影响[14]。如果样本量的大小和效应量间有潜在的关联,漏斗图也会得出错误的结论。例如,越是低钠饮食就越能引起钠降低也越能引起血压变化,而越是严重的高血压患者往往越是注重低钠饮食,这种病例如果出现在小样本的研究中,则会得出钠降低越多,血压变化越大的结论,且相关程度(效应量)会大于大样本的研究,这种样本含量和效应量间的潜在关联会导致漏斗图的不对称,而这种不对称和发表性偏倚没有任何关系[15]。

    3.3  计算失安全系数

    失安全系数NFS是指:需要增加多少个无统计学意义的研究,才能使合并的效应量无统计学意义[1]。如果NFS较小,则发表性偏倚影响较大;如果NFS较大,则发表性偏倚影响较小。失安全系数可以作为借鉴,甚至有学者认为任何一个Meta分析都要给出NFS,使其成为判断结论可信度的一个指标[16]。如果把NFS的计算过程做简单推导,则会发现NFS的使用也存在问题。现推导如下:

    如果要使得合并后的效应量无统计学意义,需使∑ωiln(ORi)+∑ωjln(ORj)∑ωi+∑ωj-01∑ωi+∑ωj2<1.962    在此,ωi为原有研究的权重,i=1,2,3...k,in(ORi)为原有研究的效应量对数值,为纳入使得合并效应量无统计学意义的研究的权重,j=1,2,3,...m,ln(ORj)为纳入研究的效应量对数值,1∑ωi+∑ωj为合并后的标准差。?∑ωiln(ORi)+∑ωjln(ORj)∑ωi+∑ωj-01∑ωi+∑ωj2<1.962    如过纳入的j个研究为无统计学意义的研究,在符合正态抽样的条件下,应满足∑ωjln(ORj)=0,则公式可以进一步简化为(∑ωiln(ORi))2∑ωi+∑ωj<1.962    此时,如果满足ωi=ωj=ω,ωi为原有的k个研究的平均权重,ωj为纳入使合并效应量无统计学意义的m个研究的平均权重,可得出kωlnOR^(k+m)ω<1.962

    ?m>klnOR^1.962ω-k    m即为所求,此方法的计算有两个前提,①是要求∑ωjln(ORj)=0;②是要求ωi=ωj=ω,满足条件①并不难,但要满足条件②,则要求发表的研究(已纳入Meta分析)和未发表的研究(未纳入Meta分析)具有相似的样本量,但事实往往并非如此,未被发表的研究的样本量很可能会小于已发表研究的样本量,使得ωi>ωj,m估计值偏大,从而低估发表性偏倚。即便满足条件②,如果两者的平均效应量方向相反,NFS也会引起误导[17],从图1可以看出,这种“相反”是很常见的。抛开公式推导过程不谈,从其他角度考虑,NFS的使用也存在很多问题:①如果Meta分析不存在发表性偏倚,但合并效应量的对数值接近0,NFS也会很小,矛盾;②如果Meta分析不存在发表性偏倚,但纳入的研究个数较少,NFS也会很小,矛盾;③如果Meta分析存在发表性偏倚,但合并效应量的对数值距离0较远(这种情况会经常出现,因为越是存在发表性偏倚,无统计学意义的研究就越不会被纳入,合并效应量的对数值就越会远离0),NFS也会很大,矛盾;④如果Meta分析存在发表性偏倚,但纳入的研究个数较多,NFS也会很大,矛盾。其他诸如异质性、混杂等的影响,使NFS失去意义。下面举例说明。

    《医学统计学》[2]242页有例:为研究Aspirin预防心肌梗死(MI)的作用,美国在1976-1988年间不同机构进行了7次关于Aspirin预防心肌梗死的研究,以发生心肌梗死后患者是否死亡为观察终点,其结果见表1。其中6次研究结果表明Aspirin组与安慰剂组的心肌梗死后死亡率的差别无统计学意义,只有一个研究结果表明Aspirin在预防心肌梗死后死亡有效并且差别有统计学意义。根据表1提供的资料做Meta分析。表1  7个Aspirin预防心肌梗死后死亡的研究结果经过可得lnRR合并=-0.090 18,由此算得的NFS=13,发表性偏倚影响较小,如果人为的增加发表性偏倚,比如把上例中的研究6去掉(因为研究6和其他6个研究的结果相悖,发表的困难也大),把其他6个研究再进行Meta分析,这样偏倚增加,再计算lnRR合并及NFS,可得lnRR合并=-0.111 99,NFS=18,偏倚增加,NFS应减小,在此却增大,NFS判断有误。图1  标准漏斗图示意图

    Fig.1  Standardised funnel plot sketch map

    横轴为均数差值标准化值(效应量),纵轴为标准误的倒数。○表示未发表的研究,●表示已经发表的研究。

    3.4  等级相关法

    此方法是在对效应量进行标准化后,再计算标准化效应量与各样本方差之间的等级相关系数[18],如果存在相关,则可能有发表性偏倚。但此方法也存在问题,因为发表性偏倚并不是能够引起相关的唯一原因,而且,如果相关系数无意义也并不能肯定就没有发表性偏倚存在,这两个原因影响了此方法的检验效能。

    3.5  剪补法

    该法由Taylor和Tweedie提出,其基本思想是首先剪掉初估后漏斗图中不对称的部分,用剩余对称部分估计漏斗图的中心值,然后沿中心两侧粘补上被剪切部分以及相应的遗漏部分,最后基于贴补后的漏斗图估计合并效应量的真实值[7]。该方法的优点是结果相对稳定,对Meta分析包含的研究个数要求不高,但毕竟其理论基础依赖于漏斗图的形状,所以在漏斗图中存在的问题在此法中依然存在。

    3.6  加权分布理论

    属于回归方法的范畴,此法理论基础是:一个研究被纳入Meta分析的概率受该研究的结果与不同结果的选择概率影响,三者组成一个权函数[19]。该方法计算复杂,方法学上还并不成熟,尚处于线性研究的起步阶段。

    其他方法还有Egger's法、Begg's法、Hackshaw's法、Sugita's法等,Egger's法和Begg's法衍生于漏斗图理论,和等级相关法有些类似,都是计算相关系数或进行回归拟合,特点也类似。Hackshaw's法和Sugita's法的理论尚不成熟,应用也不普遍,在此不做赘述。

    4  结语

    近几年来,循证医学在发展迅速,有关Meta分析的文章也越来越多。如果发表性偏倚还仅仅是引起临床流行病学专家的关注而得不到临床医生的重视,那么Meta分析的结论就值得怀疑,对临床实践的指导价值也就不复存在,甚至引起误导。虽然目前仍没有很完善的方法来识别发表性偏倚,但加深了解和加强控制,对Meta分析和临床实践也是很有意义的,相信随着学科的发展,会有更好的方法出现。

【】
  [1]王家良.循证医学[M].北京:人民卫生出版社,2005.

[2]倪宗瓒.医学统计学[M].北京:高等出版社,2003.

[3]Mosteller F,Colditz GA.Understanding Research Synthesis(Metaanalysis)[J].Annu Rev Public Health,1996,17:1-23.

[4]DerSimonian R,Laird N.Meta-analysis in Clinical Trials[J].Controlled Clin Trials,1986,7:177-188.

[5]Newcombe RG.Towards a Reduction in Publication Bias[J].BMJ,1987,295:656-659.

[6]Green SJ,Fleming TR,Emerson S.Effets on Overviews of Early Stopping Rules for Clinical Trials[J].Stat Med,1987,6:361-369.

[7]康德英,洪旗,刘关键,等.Meta分析中发表性偏倚的识别与处理[J].中国循证医学杂志,2003,3(1):45-49.

[8]Dickersin K.The Existence of Publication Bias and Risk Factors for Its occurrence[J].JAMA,1990,263:1 385-1 389.

[9]Begg CB,Berlin JA.Publication Bias:a Problem in Interpreting Medical Data[J].J R Stat Soc A,1988,151:419-463.

[10]董碧蓉,欧雪梅,赵伟业.发表性偏倚对系统评价的影响[J].中国循证医学杂志,2001,1(3):171-173.

[11]Bero LA,Galbraith A,Rennie D.Sponsored Symposia on Environmental Tobacco Smoke[J].JAMA,1994,271:612-617.

[12]Matthias Egger,George Davey Smith,Martin Schneider,et al.Bias in Meta-analysis Detected by a Simple,Graphical Test[J].British Medical Journal,1998,315:629-634.

[13]Derrick A.Bennett,Nancy K.Latham,Caroline Stretton,et al.Anderson Capture-recapture Is a Potentially Useful Method for Assessing Publication Bias[J].Journal of Clinical Epidemiology,2004,57:349-357.

[14]Schwarzer G,Antes G,Schumacher M.Inflation of Type I Error Rate in Two Statistical Tests for the Detection of Publication Bias in Metaanalyses with Binary Outcomes[J].Stat Med,2002,21:2 465-2 477.

[15]Norma Terrin,Christopher H.Schmid,et al.In an Empirical Evaluation of the Funnel Plot,Researchers Could Not Visually Identify Publication Bias[J].Journal of Clinical Epidemiology,2005,58:894-901.

[16]Persaud R.Misleading Meta-analysis:“Fail-safe N”Is a Useful Mathematical Measure of the Stability of Results[J].BMJ,1996,312:125.

[17]Evans S.Misleading Meta-analysis:Statistician's Comment[J].BMJ,1996,312:125.

[18]Begg CB,Mazumdar M.Operating Characteristics of a Rank Correlation test for Publication Bias[J].Biometrics,1994;50:1 088-1 101.

[19]Begg CB.Publication bias.In:Cooper H,Hedges LV,Editors.The Handbook of Research Synthesis[J].New York:Russell Sage Foundation,1994:399-409.