Logistic 回归分析在昆虫毒理学中的应用
【摘要】 用Logistic回归分析方法对一定剂量的农药空间中昆虫的击倒率达50%所需的时间作出估计。
【关键词】 Logistic回归分析 击倒率 剂量水平
Application of Logistic Regression Analysis in Insect Toxicology
Abstract Through Logistic regression analysis, the time for the 50% knocking down rate of insects with certain dose of pesticide has been estimated.
Key words Logistic regression analysis; knock down rate; dose level
1 问题的提出
假定一只昆虫被置放在可能导致其击倒的农药的空间中,令T为该农药击倒昆虫的药剂量的临界点值,即极小击倒剂量水平,则当剂量水平高于T时,该昆虫将被击倒;当剂量水平低于T时,该昆虫将存活。
由于各个昆虫对药剂的适应性以及自身遗传性等多方面因素的差异,同一种昆虫的不同个体的值是不完全相同的,为一随机变量。当我们把一大堆昆虫置于有某种农药的空间中时,T的分布为正态分布、Logistic分布或极值分布等。有实际价值的问题是求出T的具体分布或分布参数。
然而对每个个体而言,T值是难于观测到的。因为假定将一只昆虫置于一给定药剂量水平的空间而它未被击倒时,那么我们可以知道T将大于该给定药剂量水平。而当昆虫接受了这给定药剂量水平的药物后,临界点值将发生变化;或者昆虫变得体弱了,从而使临界点值T将有所降低;或者昆虫产生了抗药性,从而使临界点值T提高了。
总之,临界点值T将发生改变,于是该昆虫已经不能被用于下一步实验了。
反之,若一只昆虫置于一给定药剂量水平的空间之后击倒了,那么这说明临界点值T小于或等于该给定药剂量水平,T究竟多大仍不知,但该昆虫已经击倒,同样也不能用于进一步实验之中了。
因此,随机变量T是不可观测到的,人们只能观测到一只昆虫对各种特定剂量水平农药的反应,或者击倒或者未击倒,于是我们可引进随机变量Y:Y=1 该昆虫被击倒0 该昆虫未被击倒 其参数π(x)=P(Y=1)=P(T≤x) 为击倒概率。
在昆虫毒中,人们一般研究50%个体的击倒率及其对应剂量水平x。为此常将应试昆虫分成若干组,每个组处理的昆虫为n,而不同组昆虫分别配置不同剂量水平x,并观测得到其中未击倒个数为y。我们的目标是建立击倒比例在剂量水平x条件下的数学模型,其中x常取对数尺度。
尽管临界点值T的分布连续,但由于其分布的不可观测性,我们将用可观测的离散型随机变量Y去代替对T的研究,并希望由此估计出T的分布参数或分布的各分位值,特别是中位数。
2 模型的建立
我们现在用Logistic回归方法来处理该种问题。
Logistic分布函数为: F(x)=P(T≤x)=1-11+ex 其分布密度为: f(x)=F′(x)=ex(1+ex)2 此时该分布的p(0
因为p∈(0,1),不能取到一切实数。如果把p换成lnp1-p,记Logit p=lnp1-p ,则Logit p∈(-∞,+∞)。Logistic回归方法就是通过建立Logit p与x1,x2,…,xk之间的线形模型来研究p与x1,x2,…,xk之间的关系。样本回归方程为Logit p=lnp1-p=a+b1x1+b2x2+…,+bkxk ,可解得p=ea+b1x1+b2x2+…,+bkxk1+ea+b1x1+b2x2+…,+bkxk 。
现在我们要研究的是当昆虫被放置在不同的农药剂量水平的空间中时,昆虫的击倒率与剂量水平之间的关系,并且重点研究击倒率达到50%所需时间,因为这个时间常常用来度量该农药的药效,并在昆虫毒理学中有着重要的意义。
某市白蚁防治所就某种防治白蚁的农药在不同剂量下,对白蚁的击倒率进行了实验研究。
实验中每个试验瓶投入20只白蚁,在不同剂量的该农药水平下观测每只白蚁被农药击倒的时间,并由此不同时间与对应的击倒频率之相应数据,最终求出:
① 各不同剂量农药的白蚁击倒时间
② 相应的区间估计(取置信度为95%)。
令击倒时间为t,击倒率为p,记x=lgt,y=lnp1-p,可建立击倒时间与击倒率之间的样本线性回归关系:y=a+bx。经验表明这样的模型是较合乎实际的。事实上我们的计算结果表明绝大多数回归关系的相关系数r均达到90%以上。
在y=a+bx中令y=0即p=0.5=50%,相应地可求出x,并由此得到t0.5=10x。这个时间即为在某种药剂水平下,50%的白蚁被击倒所需时间。
记 lxx=∑n=i=1(xi-)2 ,lyy=∑n=i=1(yi-)2 ,σyx=l2yy-b2l2xxn-2, 这样可得到 : a+bx0.5±tσyxn, 其中x0.5=-ab(y=0所对应的x的值)。再由 所对应的x求出相应的t,从而得到相应的区间估计。这样我们就对20只白蚁在接受某农药剂量水平后的击倒率与所需时间建立了相应的数学模型。
在对数据的处理中,为了计算过程的合理性,我们可作如下约定:
① 在同一浓度水平下,多次重复的数据取平均值;
② 在某个时间点,若20只白蚁全部被击倒,则p=20+0.521=97.6%;若在某个时间点开始有白蚁被击倒,则上一个时间点的击倒概率为p=0+0.521=2.4%。
下表为接触5%的氯丹溶液后,20只白蚁在不同时间的击倒个数。
投试时间检 查 击 倒 时 间11:3012:0015’30’45’13:0015’30’45’14:0015’30’45’9:0001137991418〖〗161619209:000031414681213920—9:000134911121317121920—
为了减小误差,我们对各个时间点的白蚁的击倒个数取平均值,计算过程如下。
击倒时间
(min)150180195210225240255270285300315330345击倒个数0237383203343935347341344359320x=lgt2.1762.2552.2902.3222.3522.3802.4072.4312.4552.4772.4982.5192.538p0.521130760215131730920712476041611115596020.521y=lnp1-p3.7143.3672.0241.8720.6930.2680.2010.3361.2850.7691.0124.0783.714
样本回归方程y=a+bx,y=lnp1-p, x=lgt 经拟合,所求回归直线方程为 y=-49+20.479x 由此可计算出i的值,如1=49+20.479×2.176=-4.438 ∑(yi-i)2=6.749,σyx=∑(yi-i)2n-2=0.783 i :a+bx0.5±tσyxn, x0.5=-ab 现在 x0.5=2.393 ,t0.5=10x0.5=247.17 :0±1.96×0.78313=0±0.426 当 =0.426 时,x=lgt=2.414,t=259.61 当 =-0.426 时,x=lgt=2.372,t=235.45
于是我们可以得到该实验所确定的白蚁在农药为5%浓度下50%击倒率所需时间的区间估计为[235.45,259.61](单位:min)。同理可求出其它浓度下50%击倒率所需时间的区间估计。
3 讨论
在生物统计范畴内处理该问题还有一种比较常用的方法——Probit方法。该方法将击倒时间分钟换算成击倒时间对数,将击倒白蚁数换算成击倒百分率,再换算成击倒百分率的机率值,然后以击倒时间为横坐标,机率值为纵坐标,将各点连接成一直线与机率值5虚线相交,交点即为击倒50%个体的时间对数值,再把这个时间对数值换算成相应的时间。
与Probit方法相比,Logitic回归方法有一定的优点。首先,它比较简单;其次,它可用来分析多因素水平对事件发生概率的影响,而Probit方法只能适用于单因素的情况。因此,Logitic方法具有更广的适用范围,在很多领域都有广泛的应用。
【】
1 孙传恒,唐启义. Logistic 回归模型及其在昆虫学中的应用. 昆虫知识, 2004,41(6),599~602.