回归分析在概率图纸法中的运用
【关键词】 线性回归;概率图纸;Excel软件;概率分布;
摘要:概率图纸法在随机变量分布的检验中有快捷简便的优点,但精确度不高。结合回归分析理论,利用Excel软件能克服这些缺点。
关键词:线性回归;概率图纸;Excel软件;概率分布;
分布参数一般在进行参数假设检验之前,需要对母体的分布类型进行推断。概率图纸法是一种常用的检验方法,目前常用的有正态、对数正态、二项分布、指数分布和威布尔分布概率图纸等。概率图纸法使用简单,但准确性不高。运用回归分析的方法,结合概率图纸能对母体的分析类型和参数作出较为准确的推断。本研究用线性回归理论在正态概率图纸法的运用中说明这种方法的过程。
1正态概率图纸的构造原理及使用
11构造原理
设母体ξ的分布函数F(x)服从正态分布N(μ,θ)
F(x)=1 2π〖JF(Z〗x -∞ e-(t-u)2 2σ2 dt〖JF)〗=1 2π〖JF(Z〗t-u σ -∞ e-z2 2 dt〖JF)〗
=Φ(x-u σ)=Φ(z)
Z(x)服从标准正态分布N(0,1),函数Z(x)=x-u σ (I) 是x的线性函数,在(x,z(x))直角坐标平面上是一条直线。
正态概率图纸上,横轴的刻度表示x,纵轴上先刻出z的刻度(均匀),然后根据标准正态分布N(0,1)表查出对应的分布函数值Φ(z),刻在z的位置上,然后把z的刻度去掉,留下x与F(x)(即Φ(z))的刻度,就构成一张正态概率图纸。
12使用方法
若假设的分布类型正确,则母体中抽得子样数据在该种分布的概率图纸上绘制的点基本在一条直线上,否则研究的随机变量就不服从假设的分布类型。这种方法不仅可以检验分布类型还可以进行参数估计,但都采用目测,精确度不高。
2线性回归理论在概率图纸法中的运用
利用线性回归理论,结合Excel软件不仅可z与x间的线性相关程度,还可算出随机变量x的分布参数的点估计什和区间估计。
21实例运用
检验某型号玻璃纸的横向延伸率是否服从正态分布,测得数据如下[1]:
右端点X 36.5 38.5 40.5 42.5 44.5 46.5 48.5 50.5累计频率% 7 15 26 35 44 56 73 87概率F(X) 0.07 0.15 0.26 0.35 0.44 0.56 0.73 0.87右端点X 52.5 54.5 56.5 58.5 60.5 62.5 64.5累计频率% 92 95 97 97 99 99 100概率F(X) 0.92 0.95 0.97 0.97 0.99 0.99 0.995步骤如下:
① 把上表确立的点(x,F(x))标在正态概率图纸上。观察点的分布大概在一条直线附近,估计变量的分布服从正态分布。以下在Excel软件中进行。
② 编辑函数NORMINV(F(X),0,1)计算出每一个F(X)(即Φ(z)对应的Z值),将正态概率图纸上的点坐标转为(X,Z)。X 36.5 38.5 40.5 42.5 44.5 46.5 48.5 50.5Z -1.47579 -1.03643 -0.64335 -0.38532 -0.15097 -0.150969 0.612813 1.126391X 52.5 54.5 56.5 58.5 60.5 62.5 64.5Z 1.405072 1.644854 1.880794 1.880794 2.326348 2.326348 2.575829③ ZX有线性相关性的检验。用PEARSON相关系数r=Sxz SxSz,|r|≤1,|r|的值越接近1则ZX线性相关程度越高。
其中:Sx=∑n i=1(xi-)2 n, Sz=∑n i=1(zi-)2 n,
Sxz=1 n∑n i=1(xi-)(zi-)
编辑函数PEARSON(array1,array2),其中array1为X的集合,array2为Z的集合,r=0.989295,可见ZX之间相关性极高。
④ 求出回归方程z=bx+a(II),其中b=∑n i=1(xi-)(zi-) ∑n i=1(xi-)2, a=-b
编辑函数SLOPE(array1,array2)计算出b=0.147011的值,其中array1为Z的集合,array2为X的集合,在Excel中编辑函数INTERCEPT(array1,array2)计算出a=-6.60818的值,则ZX间的线性回归方程为Z=0.147011x-6.60818,根据线性回归理论可得分布参数的点估计值σ=1 b=6.802203, u=-a b=44.95015。
⑤ 回归方程的显著性检验:构造统计量F=SSR/1 SSE/(n-2)~F(1,n-2)进行检验。其中SSR=∑(i-)2, SSE=∑(zi-)2,计算得F=597.4379。取显著水平α=0.01,编辑函数FINE(0.01,1,n-2)得临界值F0.01(1,13)=9.073806,则ZX间的线性回归方程z=0.147011x-6.60818在显著水平=0.01的水平下有显著意义。
⑥ 分布区间的参数估计:回归方程z=bx+a中的回归系数b的可信区间为b±tα/2,n-2Sb,其中:Sb=Szx lxx,Szx=SSE n-2,lxx=∑n i=1(xi-)2=1120。编辑函数TINVE(0.05, n-2)得t临界值。
t(0.025,13)=2.160369,Sb=0.040774,b的0.95的置信区间为(0.058925,0.235097),由a=-b得a 的0.95的置信区间为(-11.0565,-2.15984)。
由分布参数的点估计σ=1 b,u=-a b,a=-b得σ和u的区间估计。
σ的区间估计为(4.253561,16.97065),u的区间估计为(36.6538,47.0296),置信度均为0.95。3推广应用
从上述过程中可见对于母体分布能用概率图纸法检验,就可结合回归理论进行精确计算。同时,对于某些随机变量的函数,若其分布能用某种概率图纸法检验,也可用上述方法计算。
1魏宗舒.概率论与数理统计教程高等出版社, 2002
2王晓明Excel2002高级运用―数理统计机械出版社, 2003
3刘璋温,戴树森,方开泰概率纸浅说出版社,1980