方剂配伍规律数据挖掘的研究现状及思考

来源:岁月联盟 作者: 时间:2015-06-05

                     作者:李文林,段金廒,赵国平,范欣生,尚尔鑫

【关键词】  方剂配伍规律;知识发现;综合集成;复杂系统

         从金·成无己于《伤寒明理论》中以君臣佐使研究张仲景方剂[1]至今,为了把握中医方剂应用历史嬗变的轨迹,寻找中医方剂的配伍方法及组方思路,人们利用哲学、数学等其他学科的方法或手段对方剂配伍规律的研究从未间断过。尤其是近年来,以大量经方、成方或个人临床经验组方中蕴含的配伍规律为分析对象,数据挖掘、人工智能等现代信息技术在中医方剂配伍理论研究中得到了广泛的应用,为拓宽中医理论现代化研究思路提供了一定的借鉴,但也暴露出一些问题。笔者现结合个人的研究体会对这些问题加以总结和探讨。

  1  应用现状

    目前,利用数据挖掘技术探讨方剂配伍规律的研究概括起来主要有以下3种模式:其一是以分类为主的数据挖掘研究,应用模式是运用不同的方法如判定树、贝叶斯网络、人工神经网络等,参考现行已知的方剂分类标准,将研究对象中的方剂按照组方药物的功效、性味或归经等分成若干类[2-6];其二是以聚类为主的数据挖掘研究,即按照相似性和差异性的分布,将数据对象按照不同的属性特征聚集为不同的类,然后结合领域知识对方剂的制方要素进行分析[7-12];其三是以关联规则为主的挖掘研究,即利用Apriori算法、Fp-tree及其变体,经过大量的预处理工作和谨慎的设计,把理-法-方-药之间的多维关系降维处理后,从药物与药物、药物与症状、症状与证型等不同属性之间的关联关系探讨方剂配伍模式[13-18]。上述不同方法对方剂配伍规律的研究取得了一定成绩,但挖掘层次多集中在药对、药组或药症、症证关联等局部信息的揭示上,从理-法-方-药整体层次对方剂的综合配伍规律进行探讨不多。同时,鉴于中医理论体系的“复杂性”与方剂配伍规律的“内隐性”,上述研究方法在信息提取的“准确性”、挖掘技术的“针对性”和挖掘方法的“适用性”等方面还存在一些共性问题。

  2  问题探讨

  2.1  方剂数据预处理
   
  信息处理中有一个著名的“Garbage In, Garbage Out”理论[19],即数据挖掘最后成功与否,数据准备起到了至关重要的作用。针对药名、功效、方名、症状、证候等数据有多种不同的表述方式的普遍现象,为了对方剂文本中存在的词义模糊、词义涵盖或多词义交叉的描述信息进行规范和统一,目前大部分研究者采取的方式是依据现有中医药教材或相对权威的工具书对原始数据进行相应的规范,如涉及药名的依据《中华本草》、涉及方名的依据《中医方剂大辞典》、涉及症状的依据《中医症状鉴别诊断学》、证型依据《中医证候鉴别诊断学》、剂量参考《中华人民共和国药典》中采用的国际单位制等,也有些研究者则根据个人研究方法的需要利用本体技术建立了相应的基础词表。事实上,除了《中医药学主题词表》外,上述工具书本身对症状或证型等名称的表达以及其中涉及的过程类、状态类或层次关联类语义信息的描述也是基于自然语言,因此,不同的人对药物名称、症状名称、剂量表示等制方要素进行表达方式的统一及对方剂内的药味配伍与其针对的相应症状之间的因果关系的“解析”和“映射”,或许可以满足一种方法应用时对数据“一致性”、“正确性”和“可靠性”的要求;但放大到其他方法,则存在数据源的融合度低、可扩展性差、共享程度不高等问题,不能为提高文献处理的准确性和一致性提供良好的支撑环境。

  2.2  数据挖掘方法平台的构建
   
  科学研究过程首先需要对未知领域进行分析和推测,明确研究目标和现实技术方法的内在联系,然后寻找最佳的方法进行检验。数据挖掘的不同算法都是针对应用中的具体问题提出的,一种建模方法只是对被研究问题某一方面的简化了的分析。中医方剂是一个复杂的信息系统,一味药物的多种药效在不同剂量和配伍下,药效的主次地位会发生变化,且不同药物的组合相互作用后会影响整个方剂功效的趋向,对类似的涉及药物之间联系和层次关系的认识和分析,都需要借助相应的技术和方法,才有可能实现对方剂处方规律进行较深层次的挖掘。而从应用情况来看,目前大部分学者还只是从各自专业的角度,通过特定的抽样技术或方法对被研究问题所有数据的一个区间进行了局部的探讨,针对同样数据对象、不同数据挖掘方法之间缺乏比较,针对整体数据,也缺乏不同方法的有机融合。如同样是对方剂信息进行挖掘,基于频集模式发现的关联规则可以从药物与药物、药物与症状、症状与证型之间的关联结果去揭示方剂配伍关系;而分类和模糊聚类分析的方法,则可以从聚类的最优个数以及变量的组成方面去解析方剂配伍关系。从表面上,这些方法所得的结果看似都有一定道理,但由于无法发现不同方法针对同一问题所得结果中的共性和差别,因而面对不同方法所得离散的、多点分布的挖掘结果,似乎依然无法把握同病异治的不同方剂或异病同治的某一类方剂配伍规律的脉络。

  2.3  数据挖掘结果评价
   
  数据挖掘应用特定方法对数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性。一般来说,数据挖掘所得到的信息应具有未知、有效和可用3个特征。先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,有时挖掘出的信息越是出乎意料,就可能越有价值。但在中医药领域,一方面目前的挖掘结果仍以验证性的居多,即大部分结果还是在用配伍的已知原则与理论和通过相对简单和固定的方法就能获得的结果在相互印证;另一方面,即使挖掘出了先前未知的信息,如何验证这些挖掘结果的有效性和可用性?一般情况下,对数据挖掘结果的评价,最直接的是将挖掘结果结合专业背景及专家意见通过临床或实验室验证。但面对医学数据的社会性和法律约束性等特点,不同的数据挖掘方法获得的结果对问题的实际解析有可能差之毫厘却谬以千里。因此,如何对医学数据挖掘结果进行有效性评价,已经迫切地摆在了我们的面前。

  3  思考
   
  生命系统研究当前的最佳支撑点是中医药学的整体性和系统性理论,在这样的理论指导下,越来越多的医学研究试图从多点的、局部的分散式研究走向系统的、整体研究阶段。以方剂配伍研究所积累的多方面的基础数据为对象,传统数据处理技术因处理数据之间各种联系和因果关系的局限性所呈现的相互独立的分析结果,已经不能满足人们对某一方面知识的整体性和关联性的需求。目前,中医界越来越多的研究者希望通过加强信息处理以及各种新技术的应用,从批量的信息或数据之间找到具有科学意义的关联,以便对方剂配伍规律做出层次性的解释,来提高临床和实验室研究体系的效率和产出。
   
  近年来,国外以生命科学中积累的大量信息和巨量文献为对象,以知识发现为目的的数据挖掘技术,在基因、蛋白质、疾病、药物及其相互关系的研究中已取得显著成绩[20],并有研究结果得到临床和实验室的验证[21],给国内中医药的知识发现研究提供了思路和方法学的借鉴。
   
  首先,在数据挖掘对数据的规范要求方面,美国国立医学图书馆自1986年开始研制的统一医学语言系统(Unified Medical Language System,UMLS,由超级叙词表、语义网络、信息资源及专用词典组成),以其实时更新、面向互联网免费开放的应用方式,有效地克服了计算机生物医学信息研究领域的两个显著障碍:相同的概念具有不同的表达方式,有用的信息分散在不同的数据库系统中,在医学词汇的规范、统一、标准化、科技信息的交流以及深层次自然语言处理方面发挥了巨大作用。国内科技信息界虽在20世纪90年代后也相继进行了分类-主题词一体化词的研制工作,如中国医学科学院信息所图书馆编制的《中图法与MeSH、中医药学主题词对照表》,在中文生物医学文献计算机标引和分类等方面提供了良好的支撑环境。但由于数据更新不及时、共享机制不完善,这些词表在满足医学数据挖掘对概念术语的名称、表达方式、语义类型统一规范的保障与支撑需求方面总显得力度不够。因此,一方面,中医数据规范依据的缺失是造成中医药语料处理困难的一个难以回避的瓶颈;另一方面,即使有了数据规范的标准,倘若不能象UMLS那样通过信息的无障碍传递而实现这些基础科学数据的共享,则依然会阻碍基于信息技术通过事物的共性研究而进行事物分类和知识发现的进程。
   
  其次,国内针对中医药数据挖掘的研究,大部分是基于单一方法的应用,而国外生物医学领域的知识发现研究,在技术平台方面往往是机器学习、文本挖掘和网络信息技术等多种方法与技术的融和。在研究团队方面则是由临床、信息检索、数据挖掘等不同专业背景的研究人员共同构成。典型的案例如以Pubmed数据库中积累的关于某一疾病的大量文献为分析对象,Swanson[22]利用Arrowsmith系统对镁缺失与偏头痛的关联关系的探讨、Hristovski D等[23]利用Bitola系统对多发性硬化病病因的分析、Kristina M Hettne等[24]基于Medscan和Pathwayassist软件对复杂性疼痛综合征的发病机制的推测等等。这种以专家群体、数据和各种信息技术有机结合的形式进行生命科学知识发现的研究模式,恰恰是1990年钱学森院士提出的“把专家体系、数据和信息体系以及计算机体系有机结合起来,从定性定量综合集成角度处理复杂问题”的综合集成方法体系[25]的体现。
   
  中医理论体系的复杂性与临床诊疗的个性化决定了方剂配伍规律的“内隐性”,与方剂相关的症状证型、治则治法、药味组合、剂量剂型等各个环节的差异又造成了方剂信息的多样性和复杂性。可以设想,针对方剂配伍规律的知识发现研究,只能是由相宜的方法和技术组成的多模块的系统模型,既要反映中医学认识论整体、综合、联系的特点,符合中医定性模糊思维特征,又要能定量描述药物之间的配伍关系、药物配伍与病证的针对性。借助这种综合集成的技术平台的支撑,或许我们可以从经方或类方入手,对同病异治的不同方剂或异病同治的同类方剂之中蕴含的共性和差异性信息进行多层次的探讨,从而为方剂配伍规律知识地图的呈现提供线索与思路。
   
  另外,在关于数据挖掘结果的评价方面,由于数据挖掘技术汇集了来自机器学习、模式识别、数据库、统计学、人工智能以及管理信息系统等各学科的成果,因此对其进行评测本身就是一种全新而富有挑战性的工作。关于中医药领域数据挖掘结果的评价方案,北京中医药大学的任廷革教授曾在针对名老中医的病案处方进行数据挖掘的研究中提出,可以围绕“方证”关系,从“方证一致性、法(治则治法)-效(处方功效)一致性、性(处方综合性味归经)-候(处方主治症候)一致性、处方药效释放率等方面对挖掘结果进行分析和评价”[26]。国外常见的模式是,一个研究团队利用一种技术平台进行的综合知识发现结果可以由其他团队利用另外的方法或平台进行验证。如Hristovski D[27]利用Bitola系统、Weeber M等[28]使用DAD (Disease Adverse drug reaction-Drug)系统曾分别对Swanson关于“雷诺氏病与鱼油”和“偏头痛与镁”的研究结论进行验证性研究。虽然目前还没有相对成熟的评价模式,但可以预见,随着数据挖掘方法和技术在医学领域应用范围的增多,如何对数据挖掘方法或产生的结果进行科学合理的评价也将成为一个有意义的研究课题。

图片内容