基于模糊k?最近邻规则的葛根类药材的模式识别

来源:岁月联盟 作者:杨铭 时间:2010-07-11

【摘要】    目的: 探讨模糊k?最近邻算法运用于葛根类药材模式识别的可行性。方法:选择6种化学成分的含量,对不同产地的多种葛根类中药的药理抗内毒素活性建立了模糊k?最近邻规则识别模式。结果: 模糊k?最近邻规则对葛根类中药的药理抗内毒素活性识别正确率达100%,优于经典k?最近邻法与Bayers判别法。结论:模糊k?最近邻算法可用于中药模式识别研究。

【关键词】  模糊k?最近邻算法; k?最近邻算法; 模式识别; 葛属

  模式识别技术是一种借助数学方法和机技术来对样品的内部及隐含性质进行分析的综合技术,包括判别分析、聚类分析、机器学习等多种方法。该技术已经广泛应用于各个领域,随着中药化进程,该项技术逐渐在中药领域深入应用。k?最近邻法已被广泛应用于模式识别的分类器设计,所谓k?最近邻法(KNN)就是取未知样本的k个近邻,看这k个近邻多数属于哪一类,就把其归于哪一类,在分类过程中KNN是采用简单多数投票法来确定未知样本的分类[1]。问题是,当学习样本类别分布不均的时候,如果仅考虑排序后的k个最近邻而忽视样本间的不同距离,势必会降低KNN的分类精度[2]。模糊k?最近邻算法(Fuzzy?KNN,FKNN)就是将模糊理论与k?最近邻法相结合的一种监督学习技术,它有效解决了上述问题,它将未知样本与k个最近邻的距离模糊化,并为每个类别都设置了相应的隶属度,而不象KNN那样简单的将未知样本的归类定为“属于”或者“不属于”[3]。FKNN已被成功的应用于多个领域,在蛋白质结构预测[3]及文本分类[2]都有着不错的性能,本研究将FKNN应用于中药的模式识别,目前国内尚未见报道。

  1   FKNN算法的原理及实现
   
  本研究的FKNN算法[4]不同于聂生冬等[5]将模糊c?均值聚类与KNN简单结合,而是在KNN的基础上结合模糊理论进行归类决策实现的,其具体算法安排如下:
   
  ⑴ 设已知样本集合P={p1, p, …pn},n为已知分类的样本数,c代表分类数,u代表一个c×n的矩阵;
   
  ⑵ 确定未知样本的最近邻数k的值;
   
  ⑶ 选择欧式距离范数d作为距离测度;
   
  ⑷ 对每个未知样本x:
   
  ① 计算n个距离d=d(x,pj),并对其进行排序:
                    
  pi∈P,且x ?P
   
  d(1)≤d(2)≤d(3) ……≤d(k)≤d(k+1) ≤…≤d(n)
   
  其中d(1)到d(k)是未知样本x的k个最近邻与x的距离。
   
  ② 在u中找出对应于k个最近邻距离的k个列{uj},其中j=1,2, ……k。
   
  ③ 利用上一步从u中获得的k个列{uj},计算[4]:
   
  ui(x)=?kj=1uij1d(x,pj)2m-1 ?kj=11d(x,pj)2m-1
   
  其中m为模糊权重调节因子,对于z=1,2, …,c,如果ui(x)=max{uz(x)},z≠i,则x属于第i类。取下一个未知样本转到(4)继续,上述算法不是迭代过程,每个未知样本都必须按照上述算法处理一遍。

  2  中药葛根类药材的模式识别
   
  中药模式识别通常是根据中药所含化学成分的整体进行分类或描述,识别该中药的真伪与优劣。葛根为豆科植物野葛或甘葛藤的干燥根,全世界已知的葛属植物大约有18种,我国是葛属植物的原产地之一,分布极其广泛,葛属植物有9个种和2个变种,其中7种与药用有关,研究结果表明,不同葛属植物中药用成分异黄酮含量和组分差异显著。曾明等[7]对8个来源共17个药材样本的葛属植物的总黄酮X1、葛根素X2、大豆苷X3、大豆苷元X4、3’?甲氧基葛根素X5及多糖X6,6个化学成分进行了测定[6],并测定了相应的抗内毒素活性强度,按照[8]方法对各药材的抗内毒素活性强度进行分类,强度较弱者记为1,强度较强者记为2,结果见表1。本研究运用模糊k?最近邻算法以6个化学成分的含量为输入变量,药理活性强度分类为目标类别建立模式识别模型。
   
  从表1原始数据随机选取5个作为未知数据进行测试,剩余12个作为已知数据进行学习,将各数据进行归一化处理后,运行FKNN算法,算法实现语言为MATLAB。对于FKNN,k值对分类器的性能有显著影响,表2是不同k值下FKNN的分类精度。由表2结果可见当k值大于等于7时,FKNN具有最好的分类精度,对未知数据集及整个数据集的识别正确率都达到了100%,在本例中k取7进行建模识别,识别结果见表1。我们也尝试用经典KNN法对数据进行分类,结果见表3,可见,在相同k值下FKNN都要比KNN表现出更好的分类性能。就本例数据而言,无论我们怎么调整参数,KNN法的分类精度都不能令人满意。张汉明等[8]也对同样的数据进行了Bayers判别分析,结果回判的识别正确率也仅有88%与94%。

  表1  17个药材样品的化学与药理模式数据(*为测试数据)(略)

  表2  不同k值下FKNN的分类精度(略)

  表3  不同k值下KNN的分类精度(略)

  3   结果与讨论
   
  FKNN作为一种监督学习技术,将对每一个未知样本进行相同的算法处理,且由于其算法不是迭代过程,因此也不存在不收敛的现象。另外,对于模糊权重调节因子m的取值,理论上可以是任意的,根据文献[4],本研究取值m=2,我们也对m在[1,3]范围内,以0.1为步长考察了不同m值对FKNN分类精度的影响,结果发现并无差异。在m=2,k=7时FKNN对17种葛根类中药的药理抗内毒素活性识别正确率达100%,识别精度要优于k?最近邻法及文献[8]的Bayers判别法,FKNN可以用于中药的模式识别研究。

【文献】
    1 Jiawei Han,Micheline Kamber. 著. 范明,孟晓峰,等译. 数据挖掘概念与技术. 北京:机械出版社,2001:209.

  2 Shang Wenqian,Qu Youli,Huang Houkuan,etal. Fuzzy knn text classifier based on gini index. Journal of Guangxi Normal University:Natural Science Edition,2006,24(4):87~90.

  3 Rajkuar Bondugula,Ognen Duzlevski,Xu Dong. Profiles and Fuzzy k?nearest neighbor algorithm for protein secondary structure prediction. Asia?Pacific Bioinformatics Conference, 2005:85~94.

  4 J. M. Keller,M. R. Gray,J. A. Givens. A fuzzy k?nearest neighbor algorithm. IEEE Trans on SMC, 1985,15(4):580~585.

  5 聂生东,聂斌,章鲁,等. 基于模糊k?近邻规则的多谱磁共振脑图像分割方法的研究. 生物医学工程学报,2002,21(5):471~477.

  6 曾明,张汉明,郑水庆,等. 葛属植物根的异黄酮类成分分析. 第二军医大学学报,1998,19(2):189~190.

  7 曾明,张汉明,郑水庆,等. 葛根及同属植物根的抗内毒素作用比较. 中国中药杂志,1997,增刊:178~179

  8 张汉明,曾明,郑水庆,等. 中药葛根及同属植物的模式识别研究(Ⅱ). 中草药,2001,32(3):253~254.