反向临床试验

来源:岁月联盟 作者: 时间:2010-07-14

          作者:王曙炎 秦定一 杨波 赵国龙

【关键词】  反向

  摘要:目的:提出反向临床试验的基本原理和方法。方法:指定试药和所要的疾病。按治疗效果将病人划分为成功组与可比的失败组,就试药服用比例在两组间进行比较。亦可选取成功病例,找出可比的失败病例,就曾否服用试药进行配对比较。结果:若成功组试药服用比例高于失败组并具有统计学意义,则有利于接受试药。结论:其操作方向与传统临床试验相反,两者为互补关系,结果相互印证。因此,反向临床试验可作为药物临床评价的方法之一。

  关键词:临床试验;药物;样本量;统计学检验; 疗效                                                         
  关于反向临床试验(backward clinical trial, BCT)的想法出自临床实践。医生在给病人开处方时经常遇到这样的提问:①这种药物疗效如何?②治疗见效的病人用的是什么药?问题①涉及传统的即正向临床试验(forward clinical trial, FCT),包括随机化对照试验[1],这在操作上是先用药,然后分析疗效;问题②则对应于BCT,其操作方向相反,即先找到治疗见效的病人,然后了解所用的药物。

  迄今药物临床评价主要依据FCT,这相当于从正面认识疗效。若能从反面加以印证,则有助于完善对疗效的认识。为此,本研究提出BCF的概念,阐明其基本原理、基本方法、与FCT的联系,并讨论其理论意义和实践价值。

  1 基本原理

  问题②涉及治疗见效的病人以往用药情况。见效也可说成是治疗成功,其定义基于临床终点的取舍。这因研究目的而异。如以痊愈、存活、肿瘤缩小、没有转移、没有排异反应、某临床或实验室指标转阴等为成功,否则为失败。对于以了解毒副反应为目的的研究,则以没有发热、皮疹、恶心、呕吐、白细胞减少等为成功,否则为失败。以往用药情况指曾否服用试药或其他药物、剂量、疗程等。这样,病人可分为成功组(winning group)和失败组(losing group)。试药服用比例、剂量、疗程等在两组间的差别称为成功失败差(winloss difference)μ,它是BCT的主设计参数。成功组和失败组被假定代表独立随机样本。虚假设为H0:μ=μ0,这里μ0通常为零;对立假设为H1:μ=μ1,μ1≠μ0(双侧),或μ1>μ0或μ1<μ0(单侧)。

  给定大小为N的样本,μ实现为观测的成功失败差X,它是BCT的主评价指标。设X为正态分布,在H0下为fx(x;μ0,σ02/N),在H1下是fx(x;μ1,σ12/N)。其中σ2是个体测量值的方差。设Ⅰ型错误概率为α,Ⅱ型为β,对应正态离差在双侧对立假设是z1-ε/2,z1-β,故有±x1-α/2=μ0±z1-α/2σ0/N 。若H0为真,样本量N宜满足
〖JF(D〗-x1-α/2  fx(x;μ0,σ02/N)dx〖JF)〗=〖JF(D〗∞ x1-α/2 fx(x;μ0,σ02/N)dx〖JF)〗=α/2若H1为真,宜满足〖JF(D〗-x1-α/2                   -∞ fx(x;μ1,σ12/N)dx〖JF)〗=〖JF(D〗∞  x1-α/2 fx(x;μ1,σ12/N)dx〖JF)〗=1-β在α水平,将|x1-α/2-μ0|=z1-α/2σ0/N与|μ1-x1-α/2|=z1-βσ1/N相加得|μ1-μ0|=z1-α/2σ0/N+z1-βσ1/N。由此得试验所需样本量N=z1-α/2σ0+z1-βσ1  μ1-μ02(11)这就是渐近正态法(Halperin et al, 1968)[2]。亦可按N=z1-α/2+z1-β μ1-μ02σ02(12)

  进行测定。这就是同质假设简化正态法(simple normal assuming homogeneity)[3,4]。其本质为非中心法,所得结果比(11)式稍大[5]。对于单侧对立假设,只需将z1-α/2换成z1-α即可,按样本量N抽样得临床资料。

  由临床资料得μ和σ02的估计值X和s02 。为检验H0的统计量是
Z=|X-μ0| s0/N~N(0,1)(13)由Z值对X作出评价。

  2  基本方法

  BCT可以是两组比较,其设计要点如下。首先指定试药和所要治疗的疾病。后者也可以是症候群或综合征。诊断和疗效标准依据卫生行政文件、专业会议文件、等。指定范围,已知该范围内该疾病多见,该试药常用,且符合剂量疗程,或者已作过对应的FCT。若具备长期人口基或基疾病登记系统和病例数据库更好。可取给定区域给定时期的全部病例或抽样人群中的全部病例,其代表性好而工作量大。亦可取某医院某时期接诊的连续病例,其代表性差而工作量小。设所需总病例数为N,成功组和失败组各为q1N和q2N。这里qi是样本分数,i=1,2,q1+q2=1。常取{qi}=(1/2,1/2),(2/5,3/5),(1/3,2/3)[6],调整成功定义或抽样比例可得指定qi值。确认与该疾病和试药疗效有关的社会、生物学、和临床变量。两组间这些变量的分布、试药剂量疗程以及其他治疗宜保持一致。这样,成功组和失败组除指定临床终点的状态有所不同外,其余特征均相同。试药服用情况以服用比例为例。设该比例为πi,成功失败差为μ=π1-π2,两组平均为=q1π1+q2π2。病例数的分配如四格表1所示。
  
  设p为π的样本估计值,观察的治疗对照差为X=p1-p2。设两组相互独立,按二项分布理论,X的方差为σ2/N=π1(1-π1)/(q1N)+π2(1-π2)/(q2N)。若H0为真,π1=π2=,故有σ02=(1-)(1/q1+1/q2)。若H1为真,则为σ12=π1(1-π1)/q1+π2(1-π2)/q2)。预定Ⅰ型错误概率为α,Ⅱ型为β,代入(11)或(12)式可得所需样本量。依据研究内容和样本量制备足够问卷和调查表。

  试验执行的第一步是临床资料的收集。收集指定范围的疾病登记和病案记录,转录所确认的社会生物学和临床变量,试药和其他药物服用情况,以及有关临床终点的状态。第二步是调查核实。利用问卷和调查表对这些资料进行核实和补充。第三步是建立成功组和可比的失败组。依据有关临床终点治疗前后的状态确定成功病例和失败病例,分别抽样得成功组和失败组,满足所需样本量和样本分数,并保证两组有关社会生物学和临床变量分布的一致性。依据试药和其他药物服用情况确定服用比例,两组各种操作宜保持一致,从而得到观测值样本。

  首先分析两组主要特征的均衡性,然后分析试药服用比例。比方说,成功组有y1个曾用试药,失败组有y2个。服用比例估计为p1=y1/(q1N)和p2=y2/(q2N)。估计为=q1p1+q2p2。观测的成功失败差为X=p1-p2。σ02估计为s02=(1-)(1/q1+1/q2)。将这些代入(13)式,得同质假设比例检验[7]:Z=|p1-p2| (1-)  N1q1+1 q2~N(0,1)(21)

  这用于检验H0,推断服用比例组间差别。若成功组高于失败组,且有统计学意义,则有利于接受试药。此外,比值比Ψ(odds ratio)的估计,R={p1/(1-p1)}/{p2/(1-p2)},可提供直观的临床解释。其方差估计为:S2(R)=R2 N1 q1p1+1 q2p2+1 q1(1-p1)+1  q2(1-p2)

  这可经随机变量函数方差公式转换为lnR的方差估计值:S2(lnR)=1 N1q1p1+1 q2p2+1    q1(1-p1)+1 q2(1-p2)

  其分布更逼近正态,由此构成Ψ95%的置信限:exp(lnR±1.96S(lnR))。如果不包含1,且R>1,则有利于接受试药。至于其他预后变量的筛选,以非条件logistic回归较为方便。

  BCT亦可按配对比较进行设计。指定一个治疗成功病例(winner),找出一个可比的失败病例(loser)。配对因素选自各社会生物学和临床变量,如性别、年龄、诊断型别、病程等。比方说,共有N对。其中,成功和失败病例都曾用试药的有πaN对;都未用的有πdN对;成功病例曾用而失败病例未用的有πbN对;相反的有πcN对。这里,πa+πb+πc+πd=1。设成功病例中服用比例为π1,失败病例中为π2。这N对的分配如四格表2所示。
   
  设p为π的样本估计值,观测的治疗对照差为X=p1-p2=pa+pb-pa-pc=pb-pc,观测的平均值为=(pb+pc)/2。其方差为σ2=2πbπc/[8]。若H0为真,πb=πc=,记为σ02=2。若H1为真,则为σ12=2πbπc/。代入(11)或(12)式,可得所需总对数。

  试验执行过程类似两组比较,不同点是需进行配对操作。配对因素越多,操作越困难,可比性越好;配对因素越少,操作越容易,可比性越差。一般采取折衷的办法,精选2到4个配对因素,最后得到观测值样本。

  于是,σ02估计为s02=2。将这些代入(13)式,得同质假庙配对比例检验[9]:
Z=|pb-pc|  2/N~N(0,1)(22)

  用于检验H0。这里,Ψ估计为R=pb-pc,其方差估计为S2(R)=(R2/N)(1/pb+1/pc)。同理,常用lnR的方差估计值S2(lnR)=(1/pb+1/pc)/N 构成Ψ95%的置信限:exp(lnR±1.96S(lnR))。至于其他预后变量的筛选,宜用条件logistic回归。

  3 与FCT的联系

  BCT与FCT是对立统一关系。BCT的设计、执行和分析与FCT一一对应。成功组与失败组的比较对应于试药组与对照组的比较;试药服用比例对应于应答比例;成功失败差对应于治疗对照差。比值比的意义在BCT中是成功组与失败组试药服用比例之比,在FCT中则是试药组与对照组应答比例之比。

  对于两组比较BCT,设四格表1的核心各项分别实现为a、b、c、d,可得n1=a+b,n2=c+d,q1=n1/N,q2=n2/N,p1=a/n1,p2=a/n2。这样,(21)式可写成:
Z=|a/(a+b)-c/(c+d)|  a+c  N1-a+c N1  a+b+1  c+d(31)

  将四格表1转置,可表示FCT。这里,对应统计量可写成:n*1=a+c,n*2=b+d,q*1=n*1/N,q*2=n*2/N,p*1=a/n*1,p*2=b/n*2,*=q*1p*1+q*2p*2+X*=p*1-p*2。于是(31)成为:Z*=|a/(a+c)-c/(b+d)| a+b   N1-a+b   N1  a+c+1 b+d(32)

  一目了然,Z=Z*,由于它们都可转换为X2={(ad-bc)2N}/(n1n2n*1n*2)。这就是说,若用同质假设比例检验就同一资料作反向和正向处理,并假定可比性都成立,其结果相同。另外,四格表1的转置不影响比值比,其区间估计结果也相同。四格表1的转置也不影响非条件logistic回归,有关检验也相同。对于BCT,如果由统计量p1,p2,,x分别为设计参数π1,π2,,μ赋值,按(11)式测定,得所需总样本量N。对于FCT,由p*1,p*2,*,x*赋值,得N*。容易证明,N≠N*。这归咎于渐近正态法兼有异质性。改用同质假设简化正态法(12),可得N=N*。BCT与FCT的联系由此略见一斑。

  对于配对比较BCT,若四格表2核心各项分别实现为a、b、c、d。(22)式可转换为McNemar检验X2(1)=(b-c)2/(b+c)。结果相同,但用法不同。(22)式可为单侧或双侧,而McNemar检验只用双侧。由(22)式可反推样本量,而由McNemar检验不能,这是由于转换致使相同对的信息丧失。

  对于配对比较,四格表2的转置不能表达FCT。就同一资料作反向和正向处理,需要重新配对,结果不可能精确相同。然而,这不妨碍相互印证,由于配对比较的反向和正向处理存在着与两组比较类似的统计学联系。

  4 设计举例

  例1两组比较BCT的设计。比方说,为取得设计参数赋值的依据,曾作预试。结果是:成功组有q1N=31(人),其中y1=19(人)曾用试药,服用比例为p1=0.613;失败组的有q2N=36(人),y2=15(人),p2=0.417。总病例数是N=67,样本分数为q1=0463,q2=0537。服用比例平均为=0.507,观测的成功失败差为X=0196。由(21)式得Z=1.602,P>0.05,不拒绝H0。Ψ估计为R=2.217,95%的置信限为(0.832,5.909),包含1。

  按预试结果设计正式试验。取α=0.05(双侧),β=0.1,查正态分布表得z1-α/2=1.96,z1-β=1.2816。主设计参数按上述统计量p1,p2,,X赋值。由(11)得N=269.97。按原样本分数得q1N=124.997,q2N=144.974。设所得服用比例不变,故有y1=76.623,y2=60.454。由此得Z=3.212,P<0.01,拒绝H0,有利于接受试药。Ψ估计为R=2.215,95%的置信限为(1.359,3.609),不包含1。若由(12)式得N=274.339,所需病例数稍多。

  若按预试结果作正向处理,其结果是,试验组q1*N=34(人),其中y1*=19(人)成功,成功比例为p1*=0.559;对照组的这些是q2*N=33,y2*=12(人),q2*=0.364,两样本分数为q1*=0507,q2*=0493。平均成功比例为*=0.463,观测的对照差为X*=0.195。若可比性成立,由(32)式得Z*=1.602,结果相同。比值比区间估计亦然。样本量的测定依次为N*=270.06>N(1.1),和N*=274.339=N(1.2)。这验证了上一节所述BCT与FCT的联系。

  例2 配对比较BCT的设计。设预试结果是:πaN=11(对),πbN=12,πcN=5,πd=6。总对数是N=34,试药服用比例在成功病例为p1=0.676;在失败病例为p2=0.471;πb估计为pb=0.353,πc为pc=0.147,为=0.25,观测的成功失败差为X=0206。由(22)得Z=1.698,P>0.05,不拒绝H0。Ψ估计为R=2.4,95%的置信限为(0.846,6.812),包含1。

  正式试验取α=0.05(双侧),β=0.1,主设计参数按统计量pb,pc,,X赋值。由(11)得所需总对数为N=115.409。设所得试药服用比例不变,故有πaN=37338,πbN=40733,πcN=16972,πd=20366。由此得Z=3128,P<0.01,拒绝H0。Ψ估计为R=2.4,95%的置信限为(1.362,4.228),不包含1。由(12)得N=123.951。由于需要重新配对,该例不再作正向处理。

  5工作实例

  本所门诊曾做过一些类似BCT的工作,上述BCT原理和方法就是在工作中形成的,这里简述部分结果。该门诊属卫生部肝病临床药理基地,配备有肝病临床病例数据库。主要任务是实施卫生部下达的新药研究计划,诊断和治疗恪守卫生部文件。在1997和1998年,主要用肝灵素(immulin)片剂和抗乙肝胎盘转移因子(PSTF)注射剂治疗慢性乙型肝炎病人。肝灵素系澳大利亚太平洋药业有限公司生产,每片200iu,舌下含化,每日1片。疗程为6个月。抗肝胎盘转移因子系人民解放军第八十八研制,每安瓶2ml,每ml含0.8mg多肽。肌肉注射,每日4ml含3.2mg。疗程为3个月。乙型肝炎e抗原(hepatitis B e antigen, HBeAg)由阳性转为阴性是主要临床终点之一。在按BCT方式对这些资料处理时,曾将在进入后6个月内达此终点定义为成功,否则为失败。因此,研究对象确定为在进入时HBeAg为阳性的病人。在6个月内,有57人转为阴性,被看作成功组。按上述方法建立可比的失败组,最后确认有112人。他们选自在疗程结束时HBeAg仍为阳性的病人。这样,总病例数为169人,样本分数依次为0337,0663。

  两组口服肝灵素者都是17例,成功组服用比例为0298,失败组为0152,观察的成功失败差为0146。由(21)得Z=2.245,P<0.05,拒绝H0,有利于接受该药有HBeAg转阴作用的解释。比值比估计为2375,其85%的置信限为(1103,5115),不包含1,支持上述解释。

  成功组肌肉注射抗乙肝胎盘转移因子者有11例,失败组有19例,使用比例分别为0193和0170,观测的成功失败差为0023。由(21)得Z=0.375,P>0.05,不拒绝H0。比值比估计为117,其95%的置信限为(0514,2664),包含1。结果不定。

  6 讨论

  在流行病学中,有队列研究和病例对照研究[10]。在临床医学中,有正向的FCT,亦应有一个与之相对的BCT,两者为互补关系。如果说FCT是队列研究的延伸,那么BCT就是病例对照研究的延伸。这就是BCT的理论意义。

  BCT在设计上与病例对照研究有对应关系。成功组对应于病例组;失败组对应于对照组;试药服用比例对应于危险因素暴露比例;成功失败差对应于病例对照差。比值比的意义也有对应关系:试药服用比例之比对应于暴露比例之比。因此,病例对照研究的原理与方法经修改,多可用于BCT。

  病例对照研究可在短时间内收集大量病例资料,省时省工。BCT继承了这一优点。病例对照研究中的危险因素暴露史靠回忆,有时形成回忆偏倚,对照的选择有时形成选择偏倚;而BCT中试药服用史有病历记录可查,其对照是失败病例,故无类似的偏倚。与病例对照研究相似,BCT无法实行随机化,不能获得FCT那样的比较组。然而,建立成功组与失败组的可比性要比建立病例组与对照组的可比性容易得多。为保证两组有关社会、生物学和临床变量分布的一致性,在设计和执行阶段,可考虑分层抽样;在分析阶段,可作均衡性测定,必要时用多元分析。也正因如此,BCT简便易行,且可同时研究数种药物。因此,BCT可作为药物临床评价的方法之一,特别适于药物上市后评价。

  BCT的优点如下:①伦疑虑较少;②对临床工作秩序影响较小;③无需随机双盲;④不存在因中途退出致使数据缺失的问题。BCT的应用场合如下:①药物上市后评价;②对于已用BCT评价过的药物,可用BCT再评价,以相互印证。对于那些在随机、双盲、对照或样本量等方面不够满意的FCT,这种印证尤为必要;③不宜或不便实行FCT的疾病。主要是病情严重或病死率高的疾病,如急性白血病、肝癌等;④不宜或不便实行FCT的药物或疗法;⑤当FCT有伦理学疑虑时。由此可见,对于FCT而言,BCT是一个必要补充,有时可以取代。随着改革开放进程,中医中药走出国门。但中药难以实现双盲双模拟,故难以用FCT进行评价。这时,代之以精心设计的BCT不失为一个选择。

  BCT具有实践价值。FCT提供试药疗效是否优于安慰剂或标准疗法的信息,BCT提供成功病例试药服用比例是否高于失败病例的信息。两种信息反映同一事实的两个侧面,结果相互印证。这有助于完善对疗效的认识。BCT可融入临床工作。尽管以往尚未提到BCT理论和方法,而类似BCT的工作却在无形地进行。这成为药物在临床上生存或淘汰的因素之一。然而,这些工作是无序的和经验性的,急需加以组织化和量化。这就需要就BCT从理论、方法到应用进行研究。

  BCT亦可为多中心的;试药亦可有多种剂量疗程;成功亦可为多水平的,如完全应答、部分应答、无应答。配对比较BCT中配对比例亦可为1:m,m≤4。BCT中也有混杂因素、各种偏倚等问题。这些将另行报告。

  (致谢:工作实例中的临床资料系由本所王和平、许光辉和刘欣医师整理,在此表示感谢。)

  

  1  Fletcher HR, Fletcher SW, Wagner EH. Clinical Epidemiology: the Essentials 3rd. Baltimore: Williams & Wilkins, 1996

  2 Halperin M, Rogot E, Gurian J, Ederer F. Sample sizes for medical trials with special reference to longterm therapy. J Chron Dis, 1968,21:13~24

  3 Cochran WG, Cox GM. Experimental Design. New York: Wiley, 1957

  4 Sahai H, Khurshid A. Formulae and tables for the determination of sample sizes and power in clinical trials for testing differences in proportions for the twosample design: a review. Statistics in Medicine, 1996,15(1):1~21

  5 Lachin JM. Sample size determinations for r×c comparative trials. Biometrics, 1977,33:315~324

  6  Peto R, Pike MC, Armitage P, et al. Design and analysis of radomized clinical trials requiring prolonged observation of each patient. I. Introduction and design. British Journal of Cancer 1976,34:585~612

  7  Fleiss, J. Statistical Methods for Rates and Proportions, New York: John Wiley and Sons, 1981,174~176

  8  Miettinen CS. The matched pairs design in the case of allornone responses. Biometrics, 1968,24:339~352

  9Lachin JM. Introduction to sample siae determination and power analysis for clinical trials. Controlled Clinical Trials, 1981,2:93~113

  10 MacMahon B, Trichopoulos D. Epidemiology Principles and Methods. 2nd ed. Boston: Little, Brown and Company, 1996