医学研究中Logistic回归与其他方法的结合应用
【关键词】 Logistic回归
Logistic回归(logistic regression)属于概率型非线性回归,是分析反应变量为独立分类资料的常用统计分析方法,由于对资料的正态性和方差齐性不做要求、对自变量类型也不做要求等,使得近年来Logistic回归模型在医学研究各个领域被广泛用,如流行病学、病因学的队列研究、病例对照研究,临床诊断的判别模型,效果评价等。
同时与其他传统的统计学方法一样,Logistic回归也有许多的应用条件:当自变量为连续型变量时,Logitp与自变量成线性,对多元共线性敏感,以及参数估计条件等[1~7],使Logistic回归在单独面对医学领域日益庞大和复杂多变的数据信息时,往往受到一定的限制,无法使数据信息得到充分利用,应用不当还会得出错误结论。因此随着统计学方法的不断和新的统计学方法的出现,Logistic回归在越来越多的医学研究的资料中常常不再独自出现,而是与其他方法相互结合取长补短,充分利用资料中的信息,从而得出相对正确的结论。本研究将对近几年Logistic回归在医学研究中与其他方法相互结合及比较应用作简要介绍。
1 主成分Logistic回归分析
Logistic回归模型与多元线性回归一样,对自变量中存在的多元共线性很敏感。自变量之间的任何相关都表示存在多元共线性。在多元共线性程度较高时, 可能导致模型参数的不精确估计, 使变量的单独影响不易分解出来, 从而把一些本应对应变量有显著影响的变量排除在模型之外。解决共线性的方法一般有:删除冗余的自变量,但在实际中往往会因为无法区别有意义的变量与冗余变量而误删,从而造成模型误设;增加样本含量,使标准误减少,抵消多重共线性的影响。但这种方法只有在多重共线性是由测量误差引起或偶然存在于原始样本而不存在于总体时才适用;用逐步Logistic回归,寻求建立一种最佳回归方程,这种方法容易损失一些信息;用主成分Logistic回归,通过主成分变换,将高度相关的几个变量的信息综合起来参与回归[8],主成分分析能够用少数变量对相关变量进行综合,既能降低指标的维数,又能充分反映指标的信息,从而将变量间共线性问题减弱,对结果不产生影响,这是目前我们最常用的解决共线性的方法。但总的来说,主成分Logistic回归也没有从根本上克服Logistic回归的共线性问题,仍然需要我们寻找更为有效的方法[9,10]。
2 Logistic回归在ROC分析中的应用
ROC是受试者工作特征(Receiver Operating Characteristic)或相对工作特征(Relative Operating Characteristic)的缩写, 目前已广泛应用于临床诊断性能的评价, ROC曲线是以试验结果的每一个值作为可能的诊断界值,由此得到相应的灵敏度和特异度,以假阳性率即特异度为横坐标,以真阳性率即灵敏度为纵坐标绘制而成的曲线即为ROC曲线,其曲线下面积的大小可作为诊断试验准确度的衡量指标,其取值范围为0.5~1。ROC曲线下面积估计可分为参数和非参数两种方法,在实际应用中可根据样本量大小来选择使用[11]。ROC曲线下面积指标因其不受患病率和诊断界值的影响,以及可对两个诊断试验的准确度进行综合比较,因而成为目前公认的最佳评价指标[12]。ROC 分析中结合Logistic回归模型简单有效,尤其适用于有协变量或多指标联合诊断试验的分析评价。在一项诊断试验中,由于变异的存在,必然有很多混杂因素(或协变量) 对试验的评价产生影响,它们可能对疾病的状态产生影响,也可能对测量结果产生影响。其中可以识别的因素,一般在试验设计阶段应加以控制。但在实际工作中,由于病例来源问题,在设计阶段进行控制非常困难,因此在统计分析阶段,尽可能地识别、控制混杂因素(或协变量) 显得尤为重要。Logistic回归模型能够纳入诊断指标之外的影响因素,有效控制混杂因素,使ROC分析更接近于总体实际情况[13]。
3 Logistic回归与数据挖掘技术的结合应用
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程[14]。数据挖掘技术是近几年兴起来的一个新的研究领域,其与传统数据分析的本质区别在于:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。目前与Logistic回归的结合使用多见于以下形式:
分类树模型:分类树模型属于决策树(decision tree)[15]的一种形式。在应用回归模型分析因变量与自变量之间的回归关系时,常常需要考虑各自变量之间对因变量可能存在的交互作用。当模型中的自变量数量较多,需要考虑的交互作用就会比较复杂,操作起来有一定的困难。而分类树模型作为一种人工智能分析方法,能够快速寻找并发现对因变量的主要影响因素,并在展示自变量间交互作用上有着独到的优势,但它无法分析自变量的线性叠加效应,并且往往把一些自变量之间的线性叠加效应的关系错误地用分层关系进行表达,而回归模型不仅可以较方便地表达自变量之间的线性叠加效应,而且在已知树模型结果的情况下,可以对应构造相应的回归模型表达分层的情况和实现分层统计分析。将这两种模型的优势在分析层次数据时结合起来加以利用,将会大大方便研究工作[16,17]。
BP (Back propagation)神经[18]:BP神经网络是一种非传统的多元非线性模型,自变量可以是连续的也可以是离散的,对变量不要求满足正态性和独立性等条件,可以识别变量间复杂的非线性关系,尤其是用现有统计方法无法达到目的或效果不好时,采用此模型往往收到很好的效果。当然BP神经网络在使用过程中尚有些问题需要解决,如权重系数的假设检验,计算权重系数的可信区间,含隐含层时权重系数的医学解释,判断输入变量的判别能力,输入变量的选择等[19,20]。因此目前的很多文章中,都是将BP神经网络与Logistic回归比较使用,来判断其判别效果。
目前数据挖掘技术在医学领域的应用特别是与传统统计方法的结合应用还处于起步阶段,随着该方法的逐步普及,其与传统统计方法优势互补的特点将会不断显现,使用前景是十分广阔的。
综上几个方面可以看出,在医学研究中,无论是做为分析还是检验手段,Logistic回归与其他方法的结合应用,使优势互补,已经是其的一种的趋势,虽然在其应用过程中可能还会出现一些目前无法解决的问题,但随着我们研究的深入一定会逐步克服这些问题,使这一统计学方法的使用得到更大的发展,同时促进其他统计方法的不断向前发展。
【】
1 陈峰.医用多元统计分析方法. 北京:统计出版社,2001,111~112.
2 王济川,郭志刚. Logistic 回归模型-方法与应用.高等出版社, 2001.
3 Cyrus RM,Nitin RP.Exact logistic regression:theory and examples.Stat.in Med,1995,15:2143~2160.
4 Hirji KF,Mehta CR,Patel NR.Computing distributions for exact logistic Regression.JASA,1987,82:1110~1117.
5 刘启军,曾庆,周燕荣,等.精确Logistic回归及其SAS应用程序.中华流行病学杂志,2003,24(8):725~728.
6 张宏,沈其君,陈启光.前瞻研究中Logistic回归参数估计的应用条件.中国公共卫生,2004,20(8):1018~1019.
7 张宏,陈启光,沈其君.病例对照研究中Logistic回归参数估计的应用条件研究.中国卫生统计,2006,23(3):206~208.
8 冯国双,陈景武,周春莲. Logistic回归应用中容易忽视的几个问题.中华流行病学杂志,2004,25(6):
9 赵宇东,刘嵘,刘延龄,等.多元Logistic回归的共线性分析.中国卫生统计,2000,17(5):259~261.
10 陈雄飞,董晓梅,汪宁,等.多因子共线性的主成分Logistic回归分析. 中国卫生统计,2003,20(4):212~215.
11 宋花玲,贺 佳,黄品贤,等.ROC曲线下面积估计的参数法与非参数法的应用研究.第二军医大学学报.2006,27(7):726~728.
12 傅华.预防医学.第4版.人民卫生出版社,2004,318~323.
13 陈卫中,潘晓平,倪宗瓒. Logistic 回归模型在ROC分析中的应用.中国卫生统计,2007,24(1):22~24.
14 邵峰晶,于忠清.数据挖掘原理与算法.中国水利水电出版社,2003,126~170.
15 梁华金,中深,陈海雯.基于决策树的选案分析模型设计.机,2002,6(141):21~23.
16 张文彤,吴擢春.分类树中QUEST算法与多水平Logistic模型的联合应用与比较.中国卫生统计,2004,21(1):28~35.
17 赵自强,郑明.应用分类树模型筛选Logistic回归中的交互因素.中国卫生统计,2007,24(2):114~116.
18 Lippmann.R.P. An introduction to computing with neural networks. IEEE ASSP Magazine.1987,4:22.
19 周利锋,高尔生,金丕焕.BP神经与Logistic回归对比初探.中国卫生统计,1998,15(1):1~4.
20 李丽霞,王彤,范逢曦. BP神经网络与Logistic回归的比较研究.中国卫生统计,2005,22(3):138~140.