治疗肺纤维化中药复方用药规律的数据挖掘
作者:张天嵩,张素,李秀娟,张伟伟,潘宝峰,杨克敏
【摘要】 目的 探索治疗肺纤维化中药复方的用药规律。方法 利用中国生物医学文献数据库检索到公开发表的文献中治疗肺纤维化的中药复方,建立相应数据库,采用频数分析、聚类分析、关联规则等方法对复方进行数据挖掘,对主要药物、药对(组)规律进行探讨。结果 在治疗肺纤维化的64首中药复方中,涉及114种药物,使用频次为584次;其中使用频次在5次以上的共36种、431频次;作为主要药物进行聚类分析,共分为补益药、活血药、化痰药、宣肃肺气药、清热药、平喘药6类;经关联规则分析,共得药对规则19条,药组规则25条,主要为益气药与活血药的配伍组合。结论 应用数据挖掘方法探索治疗肺纤维化中药复方用药规律是可行的。
【关键词】 肺纤维化;中药复方;用药规律;数据挖掘
Abstract:Objective To study the regularity of compound herbal formulae for pulmonary fibrosis. Methods Compound herbal formulae published on journals for the treatment of pulmonary fibrosis were searched and collected. A database was established for data mining using frequency count, cluster analysis and association rule analysis. Regularity of key herbs and a pair (group) of herbs was summarized. Results There were 64 prescriptions (totaling 114 herbs and 584 counts of frequency) in the compound herbal formulae for pulmonary fibrosis. The herbs which were used for more than 5 times included 36 herbs (totaling 431 counts of frequency). They were cluster analyzed and classified into 6 clusters including tonic, hemorheologic agent, apophlegmatisant, drugs used to disperse and lower the qi of the lung, heat-clearing drugs and antiasthmatic. The rules in pair of herbs were 19, and rules in group of herbs were 25 by association analysis. The rules consisted mostly of compatibility of qi-reinforcing drugs and hemorheologic agent. Conclusions It was feasible that study the regularity of Chinese compound prescription for the treatment of pulmonary fibrosis by data mining.
key words:pulmonary fibrosis;compound herbal formulae;regularity;data mining
间质性肺疾病(interstitial lung disease,ILD)是众多具有不同程度炎症和纤维化的急、慢性肺病,其最终病理结局是肺纤维化。近10年来,多数学者尝试用中医药治疗本病,虽然目前处于探索阶段,但已显示出了良好的前景,涌现出了一批治疗肺纤维化的中药复方。虽然组建处方的中医师受不同学术流派的影响,处方用药因个人经验而不同,但不同处方中可能隐含着许多很有价值的规律,而数据挖掘能够自动地发现隐藏在数据中的规律,更能偶然地发现一些非预期但很有价值的知识[1]。因此,采用数据挖掘方法探索这些复方的用药规律,可以对众多中医专家治疗肺纤维化的宝贵经验加以整理和挖掘,以期比较全面地获得对中医基础理论和临床实践规律的统一认识。
1 资料与方法
1.1 数据收集
首先以“肺纤维化”为主题词检索中国生物医学文献数据库(CBMDISC,1978年1月-2010年8月),通过阅读标题及摘要,初步获得有关中医药治疗肺纤维化的文献,仔细阅读全文,按组方符合中医理论、药味完整、剂量准确、主治明确、临床例数至少20例等标准,选取中药复方;将符合标准的64个复方按照编号、方名、药名、参考文献等依次输入Microsoft Excel 中,分别建立相应的数据库,各数据库间通过数据编码在不同数据间形成关联。
1.2 数据清洗
选取中药数据库进行数据清洗,主要工作是将药名规范化,如将“山萸肉”统一为“山茱萸”,“浙贝”统一为“浙贝母”。组合概念拆分,如药味“味甘辛”拆为“味甘”、“味辛”;如归经“归肺脾经”拆为归“肺经”、“脾经”;如功效“清热化痰”拆为“清热”和“化痰”等。在新得到的中药数据库中,按《中华本草》所载,输入每味药物的性、味、归经和功效,并将其数字化。其中寒、热、温、凉等药性按蒋氏方法[2]赋值;对于酸、苦、甘、辛、咸等药味及归经、功效主治等,某药的描述与其某一项相符则记为1,无则记为0。由2个人分别输入数据,完成后交叉核对,不一致处,讨论解决。
1.3 数据挖掘
1.3.1 描述性分析
采用频数分析方法,计算药物的种类及每味药的使用频次。
1.3.2 聚类分析
对使用频次超过5次以上的药物,按药物的性味、归经、功效主治以分层聚类法进行聚类分析。
1.3.3 关联规则分析
采用关联规则挖掘药对配伍规律,设最小支持度20%,最小可信度50%。
1.4 数据挖掘工具
描述性分析和关联规则分析由STATISTICA8.0软件完成,聚类分析由SPSS17.0软件完成。
2 结果
2.1 描述性分析结果
64个复方中使用114种药物、共584频次。其中出现5次以上的有36种,由高到低为:黄芪(48)、当归(37)、丹参(34)、川芎(27)、甘草(22)、麦冬(21)、党参(16)、沙参(15)、杏仁(12)、生地黄(12)、黄芩(12)、五味子(11)、红花(11)、半夏(11)、瓜蒌(9)、蛤蚧(9)、桑白皮(8)、桔梗(8)、浙贝母(7)、熟地黄(7)、地龙(7)、川贝母(7)、白果(7)、郁金(6)、鱼腥草(6)、水蛭(6)、人参(6)、金银花(6)、莪术(6)、赤芍药(6)、白芍药(5)、枳壳(5)、全蝎(5)、麻黄(5)、茯苓(5)、冬虫夏草(5),共431频次。
2.2 聚类分析结果
36味常用药物共分为6类,根据每类药的主要功效加以归类,并将每味药在治疗肺纤维化中所应用的主要功效进行整理,结果见表1。
表1 36味药物聚类结果
2.3 关联规则分析结果
药对共得关联规则19条,获得药对13对:党参、黄芪;沙参、丹参;黄芪、丹参;川芎、丹参;当归、丹参;甘草、当归;麦冬、当归;黄芪、当归;川芎、当归;川芎、黄芪;甘草、黄芪;麦冬、黄芪;甘草、麦冬。见表2。药组(每组3味药以上)共得关联规则25条,共获得药组5个:川芎、丹参、黄芪;当归、丹参、黄芪;川芎、黄芪、丹参、当归;川芎、当归、丹参;川芎、当归、黄芪。见表3。表2 药对关联规则 表3 药组关联规则
3 讨论
数据挖掘技术应用于中医药研究,成为促进中医药科研发展和实现中医药现代化的重要组成部分[3]。数据挖掘只是人类认识和探索世界的一个工具和方法,它可以发现一些潜在的现象,但不会告诉你为什么。数据挖掘的结果必须在相应目标领域专家的指导下进行解释和评价[4]。
3.1 主要药物分析
聚类分析是根据事物本身潜在的特性研究对象分类的方法。通过聚类把一个数据集合中的个体按照相似性归成若干类别,使其“物以类聚”,将数据库中的记录划分为一系列有意义的子集[5]。对于36味主要的药物按性味、归经、功效主治进行聚类分析后,获得的分类基本与临床实践相符,但也有部分出入:①白果归到补益药类;②白芍药归到活血药类;③茯苓与人参、五味子归为补益药亚类;④浙贝母、川贝母、瓜蒌与沙参、麦冬归到一类。
经过研习文献,我们发现,以上分类具有合理之处:①白果,虽然归到化痰止咳平喘中,但《本草纲目》中指出“熟食温肺益气、定喘嗽,缩小便”,《本草再新》中说“补气养心,益肾滋阴”,而临床上常配伍五味子、胡桃肉等补肾纳气,配伍熟地黄、山茱萸等补肾固涩,说明其有补、涩之功效。②白芍药常归为补虚药中,然芍药在《神农本草经》中赤、白不分,至陶弘景始分,但后世不少医家认为白芍药具有活血之功效,如《本草求真》明确指出“赤芍药与白芍药主治略同”、《药品化义》云“白芍能补复能泻,专行血海”、《开宝本草》认为芍药“白者止痛散血”等。③茯苓虽然归到淡渗利湿药中,但因其补气健脾之功而常作为补药来使用,自明清始,医家更将其作为补脾阴之药,如《本草化义》中说“甘淡属土,用补脾阴,土旺生金,兼益肺气”,说明与人参、五味子等具有补气生津的共同功效。④浙贝母、川贝母、瓜蒌归为化痰药,而沙参、麦冬归为补阴药,实际上沙参“养肺阴、清肺热、祛痰止咳(《中药志》)”、麦冬“下痰饮(《本草拾遗》)”,可见,此5味药不但有清肺化痰的相同功效,而且均可润肺止咳。综上所述,以现代数理方法所得到的药物分类反而与古人的认识更相近。