一个离散时间生存治愈模型及其应用
【关键词】 离散生存数据;协变量;持久生存;参数估计
摘要:当生命数据是离散的、未删失数据含有打结的和有协变量信息时,离散生存分析模型是适当的选择。但当生存数据中有所谓“持久生存者”时,通常的离散生存模型已不适合。介绍一个新的离散生存模型,可以处理含持久生存者的生存数据。
关键词:离散生存数据;协变量;持久生存;参数估计
1生存模型
当生存数据中出现“长期生存者”的时候, 我们就要考虑使用治愈模型。因为长期生存者的生存时间会被删失从而不会是失效数据;相反地,只要跟踪的时间足够长,易感染人群最终都会死亡,从而产生失效数据。目前流行的用来模拟此类数据是混合治愈模型。
长期以来,混合治愈模型是一个非常吸引人的生存分析模型,它由两部分构成:易感染人群的比例及标准的生存函数。它的生存函数可以做如下描述:
S(t)=pS0(t)+(1-p)=1-pF0(t)(1)
此处F0(・)=1-S0(・)一个标准的分布函数, p∈(0,1] 是易感染人群的比例。F0(t)常常被参数化为指数分布和Weibull分布。 最近,非参数的F0(t)也引起了关注[1]。有关的协变量效应也可以添加到(1)式中的参数p和标准生存函数S0(t)上。当生存函数是连续的时候, Kuk 和Chen 在[1]中讨论了如下模型:
S(t)=p[S0(t)]exp(zTβ)+(1-p)(2)
这里z是协变量, β是待估的协变量系数。S0(t)可以参数化和非参数化。本研究将此模型推广到离散时间模型,并将用它来模拟实际生存数据。
假设T0 是取值 a1[2]一样,我们也假设离散失效时间的概率函数仅仅定义在K个点a1,a2,…,aK上,这里 0, 另外部分为控制组。治疗组成员的选取是随机的。表2白血病患者的免除时间注:* 表示被删失的数据。
通过参数假设是指数或Weibull分布, Cox and Oakes 在文献[3]讨论过此组数据; Wei 在文献[4]中用两样本比例危险率模型模拟过此模型; Cheng等在文献[5]中利用广义估计方程也讨论过此组数据。但他们的讨论都基于数据中没有所谓“持久生存者”或“治愈部分”。 然而我们从这组生存数据的KaplanMeier估计中可以看出,它的尾部有大量的数据被删失,因此我们有足够的理由相信数据里面含有治愈部分,并且从它的KaplanMeier估计中我们发现易感染人群的比例大约是p=0.8055。本节我们就用离散时间治愈模型来分析这组数据。我们比较感兴趣在于以下两个方面,一是易感染人群的比例,二是基础危险函数或基础分布函数(此时协变量效应为零)。我们还将用非标准χ2分布来检验这组数据中是否真的含有所谓“持久生存者”。首先我们将数据按周分成7个区间,注意到真实的死亡只发生在前5个区间,因此失效函数只能假设为分布在此5个点上,并且在最后一个区间上,危险率函数为1。故我们合并最后3个区间。协变量效应取为治疗效应,因此我们取z=1为治疗组和z=0为控制组的协变量。有关参数的最大似然估计见表3,从表中我们看出所有参数的估计都是合理的,并且和KaplanMeier估计非常接近。表3白血病患者免除时间数据的最大似然估计
估计的方差我们可以用bootstrap方法得到,限于篇幅,本研究在此不详细讨论。另外一个感兴趣的问题的,上述数据中是不是真的有“持久生存者”?对此问题,也有相关文献讨论,例如Vu和Zhou在文献[6]中给出了非标准条件下最大似然估计的检验方法。他们的基本思路是: 假设有约束(即假设 H0:p0=1)的最大似然估计为,无约束条件下的最大似估计为,那么统计量 dn:=2(Ln()-Ln()) 的渐近分布是一个 自由度为1的50-50 混合χ2分布,这里Ln()和Ln())是相应的对数似然函数在估计点的值。基于上述检验,我们得到=(-1.2141,0.4321,0.4987,0.6142,0.3516),则dn=15.84,p值小于0.01,因此我们拒绝原假设H0:p=1,即这组数据中真的存在所谓“持久生存者”。这样我们的模型假设和相关的估计方法都是合理的,这为处理类似的生存数据提供了一个有用的模型和估计方法。
文献
1KuK, A.Y.C. and Chen, C.H. A mixture modelcombining logistic regression with proportional hazardsregression. Biometrika.1992, 79: 531~541.
2Kalbfleisch, J.D. and Prentice, R.L. Thestatistical analysis of failure time data (second edition).2002, Wiley Series in Probability and Statistics.
3Cox, D.R. and Oakes, D. Analysis of survivaldata. 1984, Chapman and Hall.
4Wei, L.J. Testing goodness of fit forproportional hazards model with censored observations. Journal of the American Statistical Association. 1984, 79:649~652.
5Cheng, S.C., Wei, L.J. and Ying, Z. Analysistransformation models with censored data. Biometrika.1995, 82: 835~845.
6Vu, H.T.V., Maller, R.A. and Zhou, X.Generalization of Likelihood Ratio Tests Under NonstandardConditions. The Annals of Statistics. 1997, 25:897~916.