主成分Logistic回归在早期鉴别卵巢囊肿研究中的应用及其软件开发

来源:岁月联盟 作者:杨海涛 杨俊英 时间:2010-07-12

【关键词】  Logistic回归;卵巢赘生性囊肿;卵巢非赘生性囊肿;

  摘要:目的:应用主成分Logistic回归分析方法对卵巢囊肿进行早期鉴别诊断,并对此实施软件开发以便于门诊辅助诊断,进而提高疾病鉴别诊断的准确性和效率。方法:首先对Logistic回归模型进行共线性诊断,然后筛选出对鉴别卵巢囊肿有统计学意义的检查指标并建立Logistic回归模型,利用该模型对卵巢囊肿进行早期鉴别诊断。程序开发选用delphi 7.0软件。结果:孕次、产次、流产次数间存在着中等程度的共线关系;除孕次、形态、内壁结构外,其余11项指标均纳入模型;回顾性判别符合率为8786%,前瞻性差别符合率为8514%,判别效果较好。结论:主成分Logistic回归实现了卵巢囊肿的早期鉴别诊断,开发的软件可以用于门诊辅助诊断。

    关键词:Logistic回归;卵巢赘生性囊肿;卵巢非赘生性囊肿;

  delphi 7.0软件非赘生性卵巢囊肿是因为下丘脑垂体性腺轴功能紊乱等原因形成的潴留囊肿[1],属于生理性瘤样病变,不易手术,但它从形态、大小等方面与病理性真性肿瘤赘生性卵巢囊性肿瘤极为相似,临床特别容易混淆,辅助检查(腹腔镜、CT等)的效果也不理想,从而导致不必要的手术。为此本文应用主成分Logistic回归建立早期定量诊断模型,并实施相应的软件开发提高诊断的准确性和效率。

    1资料与方法

    11资料来源

    用单纯随机抽样方法从1996年~2002年在河北医科大学附属四院(肿瘤)确诊的卵巢囊肿(病理诊断结果)患者中随机抽取494例作为样本。各项检查指标及赋值见表1。

    12统计方法

    统计分析选用stata 8.0统计软件。

    121Logistic回归共线性诊断[2,3]

    Logistic回归模型中的共线性诊断应用多元线性回归共线性诊断工具,共线性诊断所选指标为条件指数、方差分解比例和方差膨胀因子。

    122主成分Logistic回归分析

    ① 主成分分析:将主成分的向量记为:C=C1=α1X

    C2=α2X, C1为保留的k个主成分,C2为余下的14-k个主成分,其中α为主成分对应的特征向量阵。

    ② Logistic回归分析

    (1) 利用主成分C1进行Logistic回归分析得到回归系数及其协方差阵的估计值C1和cov(C1),那么C=C1

    0,cov(C)=cov(C)   00   0[4]。表1卵巢囊肿类型的检查指标及赋值利用式(1)和式(2)求出标准化回归系数X*和标准化回归系数协方差矩阵cov(X*)。

    X*=αC(1)

    cov(X*)=αcov(C)α(2)

    (3) 利用U检验进行自变量的筛选并利用式(3)对原变量的回归系数进行估计,进而建立Logistic回归模型。

    X=X*   SX(3)

    其中SX为原自变量的标准差。

    (4) 应用ROC曲线评价模型的预报能力。

    (5) 判别效果的评价

    回预性与前瞻性判别符合率。

    (6) 应用Logistic回归模型的线性形式进行鉴别诊断

    可事先规定应变量y=1表示赘生性卵巢囊肿,y=0表示非赘生性卵巢囊肿。为差别值,那么将一组特定的自变量代入到Logistic回归模型中就可以得到相应的值,判别届值为0,当>0时可判定赘生性卵巢囊肿,当<0可判为非赘生性卵巢囊肿。

    123程序开发

    1231界面设计所选组件为:Label、Combobox、Edit和Button。

    1232程序代码编写主要运用循环语句对Logistic回归模型的线性形式进行代码编写。

    2结果与分析[3]

    21Logistic回归共线性诊断

    最大条件指数为171331时的孕次X4、产次X5、流产次数X13的方差分解比例为09034、08268和0606,均大于05;最大的方差膨胀因子为761>5,据此可认为X4、X5、X13变量间存在着中等程度的共线关系。为了解决共线性问题进一步选择主成分Logistic回归分析方法。

    22主成分Logistic回归分析

    221主成分分析结果见表2。表2特征值、累计贡献率

    主成分   C1   C2   C3   C4   C5   C6   C7   C8   C9   C10   C11   C12   C13   C14特征值   3.1831   2.5345   1.3184   1.1968   0.9975   0.8701   0.7948   0.7737   0.6285   0.4936   0.4162   0.4011   0.3187   0.0731累计贡献率   0.2274   0.4084   0.5026   0.5881   0.6593   0.7215   0.7782   0.8335   0.8784   0.9136   0.9434   0.972   0.9948   1根据表中累计贡献率大于80%和特征值接近1判定,选取9个主成分[5]。

    222主成分Logistic回归分析结果见表3。 表3主成分Logistic回归

    该模型有14个因素进入,拟合方程为:

    Logit(P)=0.228X1-0.950X2+0.698X3+0.405X5+0.883X6+1.265X8+1.244X10-0.734X11+0.906X12-0.423X13-1.287X14-3.977(4)

    23Logistic回归模型拟合情况分析

    由图1可见,ROC曲线下面积为0868,标准误等于0018,P=0.000,P<0.05,表明该模型预报能力中等。

    图1Logistic回归模型预测能力的ROC曲线

    24判别效果的评价 表4回顾性判别符合率

    25新病例的鉴别诊断

    新病例的指标征象为:年龄50岁,无个人史,无痛经史,产3次,囊肿表面不光滑,内部回声混合,壁厚3mm,无压迫症状,囊肿房数为多房,流产1次,囊肿大小23cm×22cm。将各指标征象的赋值代入到式(4)中得到=4.738>0,因此可判断该患者所患为赘生性卵巢囊肿。

    26程序开发

    程序界面及结果见图2。程序结果显示该软件对新病例进行鉴别诊断的结果同按照主成分Logistic回归分析的原理的结果完全一致。

    图2主成分Logistic回归分析对卵巢囊肿的鉴别诊断程序界面

    3讨论

    Logistic回归是进行病因分析等常用的多元统计分析方法。但人们在长期的应用中发现很多情况下求出的模型偏回归系数不稳定,解释问题时会得出荒谬的结论,种种迹象表明多元Logistic回归也如同多元线性回归一样需要考虑共线性诊断问题。本研究采用的主成分Logistic回归分析方法较好的减弱了自变量间的共线性,得出了较为理想的诊断结果。在此基础上开发的软件,是我们面向临床实践的一次尝试,实践证明该软件可以大大提高鉴别诊断的效率和准确率。我们会在今后的工作中,进一步完善软件的相关方面的设计以更好的应用于临床。

   

    1陈中年,主编妇产科病第一版上海:上海技术出版社,1982,151~152.

    2赵宇东,肖峰,张扬,等多元Logistic回归的共线性分析卫生统计,2000,17(5):259~261.

    3杨俊英,杨海涛应用stata软件实现Logistic回归的共线性诊断中国卫生统计,2005,22(3):174~176.

    4陈雄飞,董晓梅汪宁,等多因子共线性的主成分Logistic回归分析中国卫生统计,2003,20(4):213~214.

    5余松林,主编医学统计学第一版北京:人民卫生出版社,2002,200;206;209~210;303.