多元回归分析肺吸虫囊蚴脱囊影响因素中有关异常点的探讨

来源:岁月联盟 作者: 时间:2010-07-12

      作者:曲桂玉 陈景武 杜国防

【摘要】  目的: 探讨准确发现、合理处理实验资料中异常点,资料满足多元线性回归分析条件,确保分析结果真实可靠。方法: 采用残差图、残差分析、影响分析、稳健回归及根据专业知识判断。结果: 第一组资料所对应的点为异常点,删去异常点,最小二乘法建立的方程与稳健回归建立的方程一致。结论: 多种方法结合判断异常点,进一步提高了专业结论的性。

【关键词】  异常点; 多元回归分析; 稳健回归

  为了研究肺吸虫囊蚴脱囊的影响因素,我们进行了正交试验并对其试验资料进行多元线性回归分析,旨在建立多元线性回归模型,分析探讨其影响因素作用的性质和大小。在回归模型中,异常点是指对既定模型偏离很大的数据点。尤其是数据集中的那些对统计量的取值有非常大的影响力的强影响点[1]。一旦发现异常数据应及时进行相应的处理,以提高回归方程的质量。

  1  资料和方法

  1?1  资料根据专业知识选定影响肺吸虫囊蚴脱囊的4个主要因素及水平 ,选用L16(45)正交表安排试验,试验资料收集如表1。

  表1  正交试验数据(略)

  1?2  学生化残差值为了考察各个观测数据相对于拟合的回归是否为异常点,常用的方法是考察残差的数值或学生化残差。因为残差的绝对值越大,就表示回归对这一观测拟合得越不好,相对于拟合的回归这一观测就是异常的数据。学生化残差(student residual)ri=ei     s1-rii(i=1,2,…,n)式中的S为误差的标准差。在拟合回归时,对不同的自变量值其拟合的误差是不同的。对绝对值相同的残差,其自变量不同,有不同的含义,从这个角度来考虑,就需要将残差的数值除以它的标准差来标准化,通常称为“学生化”。在回归诊断中,通常用学生化残差来判断异常点,对于较大的ri(例如|ri|>2)的观察值称为异常值[2](outlier)。本研究中第一组数据观察值|ri|=2.44,所以认为此值为异常值。它所对应的点为异常点。

  1?3  残差图多元线性回归分析资料残差图一般要求n个点的散布是无规则的。当残差图中的点呈现某种或趋向时,就可以对模型的假设提出怀疑。用残差图(residual plot)作为一种直观但经常有效的非正式检查方法。本研究以学生化残差ri为Y轴,以预测值为X轴作标准化残差图(图1),大部分散点落在|ri|≤2的水平带状区域内,只有第一组观察值落在该范围外,所以直观上认为该观察值所对应的点为一个异常点。由于学生化残差考虑了自变量空间中试验点的位置(由hii测得),所以学生化残差比普通残差更为合理,作图更易发现异常点[2]。

  1?4  影响分析 影响分析是研究每个观测点对于参数估计的影响,目的在于找出对参数估计影响大的观测值。这对于样本量较小的回归分析尤为重要。对于参数估计值影响较大的观测值,称为强影响点。

  图1  残差图(略)

  1?4?1  Cook’D值Cook’D统计量法是观察回归方程及剔除第i个观察之后的回归方程中的预测值与实际值之间Cook距离来判断第i个观测值是否为大的影响点的方法。Di(M,c)=(i)-)?M((i)-)     c 通常Di>1就认为第i组数据是一个强影响点。而在实际中,当Di>0.8或Di>0.6(当其余的Di较小)时就是一个强影响点[3]。本研究中第一组数据Cook’D为0.83,因此可认为该观察点为强影响点。

  1?4?2  DFFITS它是通过测量一个观测值排除是否对其预测值有影响,从而判断该观测值是否为强影响点[2]。 DFFITSi=(i-(i))/s(i)hii,其中i表示用全部数据拟合回归对yi的预测值,(i)表示将第i个观测值排除在外后拟合回归对yi的预测值。通常以2为其界值。本研究中第一组数据DFFTIS值为-2.8688,其绝对值大于2。

  1?5  根据专业知识判断产生异常值通常有两个方面的因素:一是环境因素的显著变化;二是人为因素。对于环境因素,异常值的出现恰恰是反映实况的突变,所以应结合实际,慎重分析。我们来看,本课题中认为的异常点,第一组观察值中自变量胃酶浓度为0,胆盐浓度为0,胰酶浓度为0,胃酶作用时间5分钟,从专业角度看,几乎相当于所有观察指标皆为0,与要模拟的实际状况是不相符合的。于是从专业来看第一组资料所对应的点可看作异常点。

  1?6  稳健回归有学者认为,一个样本点是否为异常值,不能单凭它在最小二乘法之下的残差去判定,除了经验以及对这样本是如何获得的了解外,用M?估计也能有一些帮助[1]。在M?估计中,被诊断为“异常值”的观察点,给予的权重都较小,最小二乘法中残差越小的或越接近0的点,给予的权重越大。在此我们采用稳健回归的M?估计,根据反复迭代加权最小二乘法,我们知道权重小的点是我们考虑的异常点[4]。本研究中发现第一组试验数据所给与的权重最小,稳健回归得出第一组资料所对应的点为异常点。列出各点最小二乘残差rls及稳健回归中各点的权重:
y     r     wt1     7     -3.435641     0.031686812     22     2.192429     0.873486393     10     -0.4852421     0.90536394     7     -0.6966451     0.999696385     14     0.4464198     0.990269526     15     1.599765     0.891493097     12     -0.1546714     0.988987028     13     0.6672604     0.9447489     3     -1.466972     0.739517810     13     0.7086987     0.9219137811     9     -0.0951291     0.9546443512     8     -0.3320152     0.9640339513     8     -0.0474304     0.9996977914     10     0.4162532     0.9969310415     1     -0.5415038     0.999778316     4     0.0685466     0.98511793 

  2  结果

  由学生化残差、残差图、cook’D值、DFFITS值及稳健回归等可得出第一组资料所对应的点为异常点,删去异常点由最小二乘法建立的回归方程为:=22.89536-99.19433x1-0.23107x2-2.49086x3-69.48004x4稳健回归M?估计求得方程为:=22.3843-96.081x1-0.2302754x2-2.209383x3-64.3451x4由此看来稳健回归求得的方程与剔除异常值后最小二乘法求得的方程比较接近,具有一致性,证实了回归诊断的正确性。

  3  讨论

  一组数据对应空间中的一个点,如果该组数据的残差比其他组数据残差大的多,我们称其所对应的点为异常点;对参数估计或预测有异常大的影响的数据称为强影响数据,所对应的点为强影响点[5]。当然异常点也可能是强影响点,因此它可能对回归的估计以及其它推断产生非同小可的影响。在回归的实际应用中,如何探查异常点,判断出异常点之后应该如何处理,是备受重视的问题。在回归分析中因变量y的取值具有随机性,而自变量x1,x2,…,xp的取值,X?=(xi1…,xip),i=1,2,…,n也只是许多可能取到的值中的n组,我们希望每组数据(x?i,yi)对未知参数的估计有一定的影响,但这种影响不能过大,这样得到的经验回归方程就具有一定的稳定性。不然的话,如果个别数据对估计有异常大的影响,当我们剔除这些数据之后,就能得到与原来差异很大回归方程,这样必然要怀疑所建立回归方程是否真正描述了因变量与各自变量之间的客观存在的相依关系。随着回归诊断及其图示方法在医学试验数据中的广泛应用,通过它们可以使回归结果更正确可靠[6]。因此本研究通过残差图、学生化残差、Cook’D值及DFFITS统计量法等判定正交试验的第一组数据为异常点并且为强影响点,在此所作的残差图,对于难以图示的多元回归则具有更为重要的实用意义。残差图直观是其优点,但也带来了判断上的主观性,将残差图和相应的假设检验结合起来进行“诊断”是一种较为理想的方法[7]。为了进一步证实判断的异常点的正确性,还采用稳健回归的M?估计。本研究中发现第一组试验数据所给与的权重最小,这正与我们回归诊断判断的异常点相符合。由此看来,回归诊断与稳健回归殊途同归,目的相同[8]。从广义上可认为两者是同一个东西,重点都是识别异常点。从狭义上讲,它们思路恰好相反:回归诊断,首先检测异常点,把异常点剔出,剩下的观测作为数据主体,作最小二乘拟合;而稳健回归,则先拟合一个稳健拟合,然后检测出有大残差的异常点。有关异常点的处理,本研究采用剔除异常点用最小二乘法求回归方程和不剔除异常点由稳健回归求回归方程,两种处理方法得出了一致的结论,进一步提高了专业结论的真实性和性。

 

【】
    1 陈希孺,王松桂,主编.近代回归分析——原理方法及应用.合肥:安徽科学技术出版社,1987,91~106;341~350.

  2 黄守坤. 回归诊断中例外数据点及大影响点的处理?统计与决策,2002,6:47.

  3 王斌会,徐勇勇.回归诊断中几种影响诊断量的比较.数理统计与应用概率,1995,10(3):1~5.

  4 王彤,何大卫.线性回归中多个异常点的诊断.卫生统计,1997,14(6):7~10.

  5 王松桂,陈敏,陈立萍,主编.面向21世纪课程教材线性统计模型——线性回归与方差分析.第1版?北京:高等出版社,1999,44~50.

  6 王斌会,陈平雁,郭祖超.回归诊断中图示模型及其应用. 数理医药学杂志,1997,10(3):194~197.

  7 刘沛.回归分析的新进展.中国卫生统计,1989,6(6):51~55.

  8 陈忠琏.稳健统计.数理统计与管理,1992,11(3):61~65.