利用数据挖掘方法预测中药缺失药性的初步研究

来源:岁月联盟 作者:周密 王耘 乔延江 时间:2015-06-05

【关键词】  中药药性 归经 数据挖掘 决策树

  中药理论体系中,药物的药性与功能是一个整体,前者从整体上表述了药物的作用性质、趋向和途径,后者则表明了中药对人体调节作用的结果,两者既具有明显的差别,又具有紧密的联系。利用信息技术研究中药药性,是中药药性理论研究的重要内容[1]。利用数据挖掘技术对中药药性与功能数据进行挖掘,可发现药性与功效之间的明确关系[2]。
   
  中药药性主要包括药物四气、五味、归经、毒性和升降浮沉,是中医用药的核心指导原则,是对药物临床作用的高度概括,是中医学与中药学理论连接的桥梁,是区分中药与天然药物的基本依据。然而很多中药,特别是大部分近现代中药的药性是缺失不全的。在《中华本草》[3]8 980味中药中,缺失性味描述的约7%,缺失归经描述的约75%。这严重影响了药性理论在中药现代化和临床实践中指导作用的发挥,影响中药的疗效。本研究以药性与功能记录完备的药物为基础,利用数据挖掘技术分析这些药物,建立模型,得到“功能-药性”关联关系,预测药物的缺失药性,为药性的进一步确立、药物研究与使用提供有力的支持。笔者以建立归肝经预测模型为例,探讨中药缺失药性的完善方法。

  1  资料与方法

  1.1  数据来源
   
  根据2005版《中华人民共和国药典》(一部 )[4],筛选药性与功能记录齐备的507味药物建立数据库,每味药物包括四气、五味、归经和功能属性,属性记录包括“有”、“无”两种。507味药物中,归肝经药物为249味。随机分出95味药为检验数据,其余412味药为建模数据。待预测药物为有功能与性味记录、无归经记录的20味中药,预测其是否归肝经。

  1.2  数据挖掘方法
   
  采用C4.5决策树算法[5]。本研究考察参数为The minimum number of instances per leaf,其含义为所建立的决策树每个叶结点必须覆盖的最小实例数量,简称MNIPL,其余参数采用默认值。采用十折交叉验证优选模型参数,确定最佳模型;再以95个检验数据进一步考察所建模型的可靠性。
   
  在考察总体误差估计的同时,根据误差矩阵分析该预测模型对归经预测的灵敏度与特异性。总体误差估计计算为模型将检验集正确分类的百分比,代表模型总体分类效果;敏感度计算为模型将检验集中归肝经的实例正确分类的百分比,代表预测模型的捕捉范围;而特异性计算为检验集中被预测为归肝经的实例正确分类的百分比,代表预测结果的可信度。

  2  结果
   
  选择不同MNIPL所建立模型结果,评价参数为预测模型节点数、灵敏度、特异性和交叉验证总体误差估计。结果见表1。表1  不同参数模型考察表(略)

  模型规模方面,模型2决策树节点数为41,模型3节点数为55,模型2比模型3更具简洁性,更符合最短描述长度原理[5]。
   
  综上认为模型2更具有优势。数据库中药味总数为507,其中归肝经药249味,采用随机分类的特异性为49.11%,而模型2为74.76%。
   
  利用95味药的药性数据检验模型2,模型敏感性为66.00%,特异性为84.62%,总体误差为75.79%。其总体误差估计与表1相当;敏感性降低,其源于95个检验数据集偏小,归肝经实例为50个,敏感性66%与70%之间相差仅2例分类错误,应属于正常波动。
   
  选择模型2为肝经决策树预测模型,其各层节点结构见表2。 表2  预测模型2各层节点结构表(略)

  中医认为,肝主藏血、主疏泄,肝对血液的运行、气机运动、脾胃运化、情志活动等都有重要影响。《素问·至真要大论》谓:“诸风掉眩,皆属于肝”,肝与“风证”有密切关系。由表2可见,各节点属性大多与肝经有关系,与中医理论相一致。其中补肝、平肝、疏肝、清肝与肝有直接关系,和血、活血、凉血、散结、散瘀与血液运行相关,解痉与“风”相关,而定惊、通经络等都与肝经有一定关系。挖掘结果也强调了这种关系。
   
  根据模型2预测2005版《中华人民共和国药典》(一部)[4]17味归经记录缺失药结果见表3,如“天山雪莲”归肝经的概率为81.8%;沙棘归肝经的概率为100%;而藏菖蒲不归肝经的概率为80.8%。亦有文献报道,天山雪莲注射液具有较强的抑制乙型肝炎病毒复制的作用[6];沙棘对于小儿急性黄疸型肝炎具有较好的疗效[7]。表明此挖掘结果与临床使用有较好的一致性。表3  缺失归经记录药预测结果表(略)

图片内容