基于二元回归分析的火灾数据研究
来源:岁月联盟
时间:2014-10-15
关键词:火灾;二元线性回归分析;相关性检验
引言
火灾属于突发伤害事故,是当前社会中发生频率较高且危害较大的一种灾害,特别是在近年来发生的多起群死群伤突发伤害事故中,火灾事故占相当比例,每年都会造成人员伤亡和巨大的经济损失。鉴于此,本文对造成火灾经济损失的直接相关因素进行了研究,并对相关的统计数据进行了回归分析。
现实生活中,对于具有相关关系的变量,我们往往不能像函数关系那样找到它们之间的精确表达式,但是通过大量的试验(观测)数据,可以发现它们间存在一定的统计规律性,数理统计中研究某一随机变量(因变量)与其他一个或几个普通变量(自变量)之间变动关系的一种有效方法就是回归分析。由回归分析求出的关系式,称为回归方程。回归方程为线性的称为线性回归,否则成为非线性回归。线性回归是回归分析的基本模型,很多复杂的情况都能转化为线性回归进行处理,例如,文献[1]讨探讨了统计学对认识和解决火灾问题的重要性,文献[2~3]利用线性回归模型研究了相关火灾问题。
本文主要针对国家2003—2007年火灾的相关统计数据,对火灾引起的损失费用与火灾中伤人数目及烧毁建筑面积之间的关系进行分析,建立了二元线性回归模型。
一、线性回归模型的建立
1.收集数据。表1是中国2003—2007年火灾中伤人数目、烧毁建筑面积与直接经济损失的统计数据。
2.设定回归方程。通过定性分析可知火灾中的伤人数越多,烧毁的建筑越多那么造成的经济损失就越大,并且如果火灾中没有人烧伤,房屋没有被烧毁,可认为没有经济损失。因此,可设二元线性回归分析的回归方程为
=b1x1+b2x2(1)
式中:——因变量(直接损失费用);x1——自变量(伤人数);x2——自变量(烧毁建筑面积);b1,b2——回归系数。
3.确定回归系数。将已知数据代入设定的回归方程,并用最小二乘法(见[4])计算出回归系数,确定回归方程。具体步骤如下:从表1已知,2003—2007年共有五组数据:
(x11,x12,y1),(x21,x22,y2),…,(x51,x52,y5)
设剩余平方和为
Q=(yi-i)2=(yi-bixi1-b2xi2)2
式中:yi——上页表1中第组数据的因变量;xik——第i组数据的第k个自变量(k=1,2)。
通过微积分的知识计算Q的最小值,即令Q关于每个回归系数的偏导数等于零,然后联立这两个方程=0,=0可解得回归系数b1=49.0119,b2=0.0033。因此回归方程为
=49.0119x1+0.0033x2(2)
二、相关性检验
相关性检验是指对已确定的回归方程能够代表自变量与因变量之间相关关系的可靠性进行检验。只有通过相关性检验后,才能以此回归方程为依据进行分析和预测。一般用R检验和F检验等方法。下面我们用R检验法。令
Syy=(yi-i)2=(i-y)2 =Q+U
式中:y——上页表1中5个因变量yi的平均值;i——xi1与xi2的值代入(2)式所得的值。
r=是R检验中的相关系数,它越接近于1,就说明回归方程中自变量与因变量的线性相关的近似程度越高,该方程的误差越小。通过计算可得r=0.9988,故方程(2)通过了相关检验,可用它定量的描述火灾中伤人数、烧毁建筑面积及直接经济损失的关系。
另外,从回归方程中还可以看出,火灾伤人数前面的偏回归系数较大,这主要是因为统计数据中烧毁建筑面积的数字较高,且没有考虑其他方面,例如火灾中的物资损失等,带来的经济损失。为使以上三个变量量纲一致,我们可采取以下方式,令
zi=yi/y,ti1=xi1/xi1,ti2=xi2/xi2,(3)
式中:y——上页表1中5个因变量yi的平均值,tik——上页表1中5个自变量xik的平均值(k=1,2).
对由(3)式得到的数据,利用上面的方法便得到的回归方程为:
=0.8264x1+0.177x2
相关系数r=0.9990,也通过了相关性检验。
上一篇:R软件在系统聚类分析中的应用