广义回归神经网络用于拮抗药化合物活性的模式识别

来源:岁月联盟 作者:申明金 时间:2010-07-11

【关键词】  广义回归神经;模式识别;活性有机分子的结构

   摘要:选择9个化学参数和合适的扩展系数,对一批26个拮抗药化合物的活性建立了广义回归神经网络识别模式。选择21个样本为训练集,5个样本为预测集。结果表明,该种网络具有设计简单与收敛快的优点,可用于小样本问题的学习,获得满意的预测结果。

    关键词:广义回归神经网络;模式识别;活性有机分子的结构

 活性关系研究是药物分子设计的重要手段。一般用线性回归方法各种量子化学、结构化学参数与分子生物活性的关系,但当训练集各分子的结构相差较大时,上述关系有时呈现强非线性。不少作者采用BP网络进行药物活性的模式识别研究,都取得相当的成果。然而,由于BP神经网络是基于梯度下降的误差反向传播算法进行学习的,所以网络训练速度通常很慢,而且很容易陷入局部极小点,尽管采用一些改进的快速学习算法可以较好地解决某些实际问题,但是在设计过程中往往都要经过反复的试凑和训练过程,无法严格保证每次训练时BP算法的收敛性和全局最优性。此外,BP网络隐层神经元的作用机理及其个数选择已成为BP网络研究中的一个难点问题[1,2]。为此,本研究采用广义回归神经网络用于拮抗药化合物活性的模式识别研究,结果满意。

    1广义回归神经网络的基本结构与算法[3~6]

    广义回归神经网络(GRNN)是Donald F.Specht在1991年提出的一种新型神经网络,其具体公式推导和理论可参见。该种网络建立在数理统计的基础上,能够根据样本数据逼近其中隐含的映射关系,即使样本数据稀少,网络的输出结果也能收敛于最优回归平面。目前,该神经网络在在系统辩识和预测控制等方面得到了应用。

    GRNN由一个径向基网络层和一个线性网络层组成,网络结构如图1所示。

    图1广义回归神经网络结构图

    a1i表示第一层输出a1的第i个元素,W1表示第一层权值矩阵,P表示输入向量,R表示输入向量的维数。Q=K=输入/目标矢量对的个数。网络的第一层为径向基隐含层,单元个数等于训练样本数Q,该层的权值函数为欧几里德距离度量函数(用‖dist‖表示),其作用是网络输入与第一层的权值之间的距离,b1为隐含层阈值。符号“.”表示‖dist‖的输出与阈值b1的元素与元素之间的乘积关系,并将结果形成净输入n1,传送到传递函数。隐含层的传递函数为径向基函数,常用高斯函数Ri(x)=exp(-‖x-ci‖   2σ2i),式中, σi决定第i个隐含层位置处基函数的形状。网络的第二层为线性输出层,其权函数为规范化点积函数(用nprod)表示,计算出网络的向量n2,它的每个元素就是向量a1与权值矩阵W2每行元素的点积再除以向量a1各元素之和的值,并将结果n2送入线性传递函数,计算网络输出。

    GRNN连接权值的学习修正仍然使用BP算法,由于网络隐含层节点中的作用函数(基函数)采用高斯函数,高斯函数为一种局部分布对中心径向对称衰减的非负非线性函数,对输入信号将在局部产生响应,即当输入信号靠近基函数的中央范围时,隐含层节点将产生较大的输出,由此看出这种网络具有局部逼近能力,这也是该网络之所以学习速度更快的原因。此外,GRNN人为调节的参数少,网络的学习全部依赖数据样本,这个特点决定了网络得以最大限度地避免人为主观假定对预测结果的影响。

    2拮抗药化合物活性的预测

    取文献[7]所列的26个化合物为本工作的样本集,数据见表1。表1文献所列的26个化合物样本列表将上述原始数据作归一化处理,调用MATLAB语言工具箱中的函数newgrnn(P,T,SPREAD)进行广义回归神经网络设计,计算结果如表2。

    表2的计算结果表明,广义回归神经网络对训练样本有很好的预测结果。在此基础之上,尝试从26个样本中取出5个(表1中的5、10、15、20、25号样本)作为预测集,其余21个样本作为训练集,训练结果和预测结果分别列于表3和表4。表226个训练样本的计算结果 表45个预测样本的计算结果

  在调用net=newgrnn(P,T,SPREAD)函数进行设计中,对上述当扩展系数SPREAD取0.1,0.2或0.3时,网络预测效果好;当SPREAD大于0.3时,网络预测效果开始变差。

    3结论

    上述结果表明,广义回归神经网络具有设计简单与收敛快的优点,具有较好的预测和泛化能力,为复杂的、高度非线性问题的模式识别提供了可选手段。传统的BP神经网络在确定网络连接权值时具有随机性,其预测结果存在差异,不利于实际应用[8]。而广义回归神经网络在选取输入神经元数目之后,网络的结构和连接权值也随之确定,在训练过程中不涉及随机数,而且需要的样本量少。因此,广义回归神经网络可作为药物构效关系研究的有效手段。

   

    1陈念贻,钦佩,陈瑞亮,等.模式识别方法在化学化工中的应用. 北京:出版社,2000,88~90.

    2陈锦言,姚芳莲,孙经武,等.人工神经网络及其在化学领域中的应用. 计算机与应用化学,1999,16(2):111~114.

    3Sprecht D F.A General Regression Neural Network.IEEE Trans Neural Network,1991,2:568~576.

    4Sprecht D F. The General Regression Neural Network Rediscove

    red. Neural Networks,1993,6:1033~1034.

    5周昊,郑立刚,樊建人,等. 广义回归神经网络在煤灰熔点预测中的应用. 浙江大学学报(工学版),2004,38(11):1479~1482.

    6赵闯,刘凯,李电生,等.基于广义回归神经网络的货运量预测. 铁道学报,2004,26(1):12~15.

    7Livinstone D J.Multivariate Data Display Using Neural Networks,Chapter 7 in "Neural Networks in QSAR and Drug Design",Edited by J Devillars,London:Academic Press,1996,157~176.

    8冯志鹏,宋希庚,薛冬新.基于广义回归神经网络的时间序列预测研究. 振动、测试与诊断,2003,23(6):105~109.