中药信息学研究进展

来源:岁月联盟 作者:方睿 时间:2015-06-05

【摘要】  本文对现阶段中药信息学的内容与特点进行了分析。总结了国内外近几年有突破性的中药信息学科研成果,简要介绍了随机森林、自组织映射、分子对接以及构建种质资源进化树等数据挖掘技术在中药信息学中的应用。阐述了结合现代信息技术的中药信息学对中药现代化发展的推动作用。通过实例指出了中药信息资源建设与维护中涉及到民间药物、植物化学、植物分类学等亟待解决的若干问题,同时论述了对中药信息学进行资源拓展的必要性和国际化的发展道路。

【关键词】  中药信息学;中药数据库;数据挖掘;虚拟筛选;国际植物命名法规;异物同名;同物异名

    Abstract: Some outstanding progresses of relevant research are summarized, whilst the tasks and features of TCM informatics are discussed. The applications of random forest, self-organizing map, molecular docking and phylogenetic tree built with DNA polymorphism data etc. in TCM informatics are introduced. Some typical issues in the construction and maintenance of TCM database, involving ethnomedicine, phytochemistry and plant taxonomy etc., are also discussed with abundant instances. TCM informatics integrating modern IT techniques motivates the development of TCM. The expansion of sources of TCM informatics and its internationalization is the fastrack of development.
  
  Key words:TCM informatics;TCM database;data mining;virtual screening;International Code of Botanical Nomenclature;synonym;homonym

  为推进中药现代化的发展,科技部、国家计委、国家经贸委、卫生部、国家药品监督管理局、知识产权局、国家中医药管理局、中国科学院在2002年11月制定了中国第一部中药现代化发展的纲领性文件《中药现代化发展纲要(2002年至2010年)》。此纲要明确提出了一系列中药现代化发展的重点任务,其中包括建立中药数据库和种质资源库,收集中药品种、产地、药效等相关的数据;同时要求加强多学科交叉配合,深入进行中药药效物质基础、作用机理、方剂配伍规律等研究,积极开展中药基因组学、蛋白质组学等的研究。要求重视中医药基础理论的研究与创新,特别是与中药现代化发展密切相关的理论研究,如证候理论、组方理论、药性理论,探索其科学内涵,为中药现代化提供发展源泉[1]。经过5年的实践,科技部、卫生部、国家中医药管理局、国家食品药品监督管理局等16个部门在2007年3月又联合发布了《中医药创新发展规划纲要(2006-2020年)》,确定了“继承,创新,现代化,国际化”作为中医药创新发展的基本任务。新纲要明确定义了中医药泛指中华民族传统医药,包括中医药和民族医药。首次提出了在借鉴现代医药和其他国家传统医药经验的基础上,争取使中医药标准规范成为国际传统医药标准规范的战略目标,并且强调中医药基础数据库和国际化信息库的建设,为适应中医药现代化和国际化发展需求建立创新体系,提高科技支撑能力[2]。
   
  在这样的政策背景下,中药信息学研究取得了飞速的发展。中药信息学是以计算机为主要工具,首先对蕴藏着大量中药学、化学、药理学和生物医学信息的文献资料进行分析、归类和整编。这包括将中药的原植物、化学成分、药理作用和传统中医药经验理论中的药材性味、方剂配伍、适应症和药效等信息进行数字化处理,再整合大量随机的生物实验和色谱、光谱数据,然后根据研究课题的需要采用适当的数据挖掘方法分析这些数据,从而迅速提取隐含的有价值信息并挖掘出有逻辑性和规律性的知识。这是新的历史条件下中药信息学(TCM informatics)的主要研究内容,也是现代中医药研究的重要组成部分。

  1  中药信息学发展的新阶段

    中药是一个高度复杂的化学物质体系,其复杂性不仅表现在组成方剂的化学成分的复杂性,也体现在方剂与人体相互关系的复杂性。中药通过多途径、多靶点、整体调节的机制发挥药效作用,因此具有系统性特点。长期以来,中药药效物质基础和作用机制研究未能获得根本性突破的重要原因之一是缺乏对中药高度复杂性及系统性进行研究的手段,故如何揭示并系统阐明中药化学物质组成与药效间的复杂关系,是当今中药信息学所面对的严峻挑战。

    早期建立的中药数据库大多属于功能相对简单的信息查询系统,即通过对疾病、药理作用、中药方剂等数据的互相关联对中药信息进行管理。当用户输入关键字后系统显示出相关的中药复方、功能主治、组成成分等信息,同时能按相关度和功效权重进行量化排序。这样的系统设计实现了中医药信息的存储与共享[3]。实际上,近几年中药信息学研究已经从知识共享阶段来到了知识发现(Knowledge Discovery in Database)阶段[4],而这个提升过程又是由数据挖掘技术(Data Mining)[5]的应用来实现的。在国家重点基础研究发展计划(973)和国家高技术研究发展计划(863)项目资金的支持下,新建的药学数据库在虚拟筛选和数据分析结果的可视化处理方面有了长足的发展[6-7]。新的中药学数据库与这些先进的技术平台相结合的数据发掘研究,不仅实现了传统中药学的现代化发展,也使中药继续成为国际天然药学研究与新药开发的热点。
   
  数据挖掘本身是一门跨学科的技术。事实上,统计学、数据库技术、机器学习、模式识别、人工智能和可视化等技术都在数据挖掘中起着作用[8]。因此,很难定义这些学科和数据挖掘间的界限。这些技术在各自的学科领域内有大量的专著可供参考,此处不再赘述,笔者仅针对数据挖掘技术在中药信息学中的应用作一些介绍。先进分析模型的应用提高了对中医理论、药理作用、植物化学、生物实验数据等不同领域的信息进行多维分析的效率,有助于研究人员准确地进行中药研究选题,从而有效地避免低水平的重复性研究。目前,最常用的数据挖掘方法有:决策树、神经网络、粗糙集、模糊集和遗传算法等[9]。每一种算法都有各自的特点和应用领域,不可能完成所有不同类型的数据挖掘任务。所以,在实际应用中常常采用多种算法相结合对数据进行分析。

  2  中药信息学研究的新技术、新成果

  2.1  中药生物活性的虚拟筛选

    随机森林模型(random forest)是决策树(decision trees)的集成,当作为预测模型使用时它是一种计算条件概率的描述方法。对于处理和组织大量文献数据具有较强的文本分类性能[10]。自组织映射(self-organizing map)是一种类似大脑思维的人工神经网络模型,它通过“无监督学习”将高维度的数据进行处理后再以低维(通常是二维)视图表达分析结果,而且映射图上保留原输入样本空间的拓扑性质。于是,在它输出的语义映射图上性质相似的样本是彼此靠近的,反之则位置相对较远。它的突出优点在于适合任何类型的数据,并能够算出数据样本之间的配对间距,特别是那些非矢量数据。例如,符号序列和有机化学分子结构片段序列等[11]。
   
  利用以上算法的特性,Thomas Ehrman等人在英国的King’s College London新建了一个收录240味常用中药的中药信息数据库,并针对这些药材中已知的8 411个化合物通过随机森林模型构建中药学特征档案。所构建的28个随机森林模型各自包含500棵决策树,它们描述了这些化合物在“清热”、“补气”、“止血”等28个功能与主治分类中的附属关系。再使用自组织映射模型将化合物根据中药学特征档案划归入生物碱、多酚、单萜、二萜等10大植物化学分类中,同时采用Ward聚类法生成自组织映射彩色图谱。由此清晰地将10大类天然成分在中药功能与主治分类中的分布直观地表现出来。例如:甾体类生物碱主要在催吐和治痰热的分区中显示阳性信号,原小檗碱(protoberberine)类生物碱在治湿热分区中显示出强相关性,在该分类项中的中药通常用来治疗黄疸、痢疾和皮肤病[12]。由Peter Hylands教授领导的位于伦敦的CNMR天然药物研究中心还利用此中药数据库进行了基于小分子结构相似性的虚拟筛选(Virtual Screening)。采用随机森林模型对具有相同生物活性的小分子进行分析,其中针对HIV-1病毒的剪接酶、蛋白酶和反转录酶3个靶标蛋白的虚拟筛选结果预测多味中药具有对HIV-1病毒的多靶点抑制活性。例如,富含单宁酸类成分的山茱萸、石榴、丁香、地榆以及富含黄酮类化合物的银杏、黄芩、桑叶等[13]。
   
  基于分子对接(molecular docking)的虚拟筛选是针对重要疾病的特定靶标生物大分子的三维结构或定量构效关系quantitative structure-activity relationship (QSAR)模型,从现有的小分子数据库中(包括天然药物成分、半合成以及全合成化合物)搜寻可与靶标生物大分子结合或符合QSAR模型的化合物进行计算机虚拟筛选研究。其目的是快速地从多达上百万个分子中,发现有潜在生物活性的化合物。用计算机进行的虚拟筛选大大减少了生物实验筛选的化合物数量,既缩短研究周期,又节约研究经费。虚拟筛选方法主要分为基于配体小分子的虚拟筛选(ligand-based virtual screening, LBVS)和基于受体生物大分子结构的虚拟筛选(structure-based virtual screening,SBVS)。在这个领域应用较多的程序有DOCK、FlexX、GOLD、Glide、ICM、FRED 和AutoDock等[14]。事实证明,虚拟筛选的阳性率(5%~30%)远远高于传统高通量实验筛选的阳性率(0.01%~0.1%)[7]。上海中医药大学与上海药物研究所合作,采用基于分子对接的虚拟筛选技术在ACD(Available Chemicals Directory)化合物库中发现了天然产物金丝桃苷是潜在的感冒229E抗原型冠状病毒3CL蛋白酶的新型抑制剂[15]。

  2.2  中药材种质资源研究现状
   
  国家自然科技资源平台项目“药用植物种质资源标准化整理、整合及共享试点”于2008年4月正式在北京启动,该项目的前期工程“中国药用植物种质资源信息共享系统数据库”经过3年的发展已经初见成效,收集到野生霍山石斛、宽叶型铁皮石斛、黄果西洋参、野生人参等极为珍稀的濒危种质资源。其中野生霍山石斛在国际市场上价格可达到每千克1万美元[16]。

    现代分子生物学研究发现,中药材(不含矿物药)所依赖的生物资源——“物种”的多样性是其基因多态性的结果,而基因多态性检测可在分子水平上进行,它比在形态、组织和化学水平上的检测更能代表其变异类型的遗传标记。由于DNA分子标记直接分析的是生物的基因型而非表现型,所以鉴别结果不受环境因素、样品形态(原生药、粉状或片状)和材料来源的影响,建立在PCR技术基础上的DNA指纹图谱法可为中药品种鉴别提供更加准确可靠的手段[17]。目前,在药用植物种质资源鉴定、分类、亲缘关系和遗传多样性评价等方面应用较多的DNA分子标记法有RAPD(随机扩增多态DNA)、RFLP(限制性片断长度多态性)、ISSR(简单重复序列区间)、SRAP(序列相关扩增多态性)等[18],其中RAPD分子标记技术具有简便、高效、灵敏度高、需要模板DNA量少以及容易实现基因型测定的自动化等特点[19]。尤其是该技术可以在不知道待测物种特异DNA序列的情况下检测DNA的多态性(DNA polymorphism),由于目前绝大多动、植物中药材DNA序列尚不清楚,因此,在植物资源品种研究方面,RAPD标记相对其它分子标记用于构建基因组指纹图谱和种系发生谱的使用率较高。不同产地植物样品的基因组指纹图谱结果通常应用聚类分析算法来构建进化树或种系发生谱(phylogenetic tree),它通过分支层次或拓扑图形反映出享有共同祖先的一群生物体的系统分类歧异点。这个技术有助于从基因进化的角度挖掘出生物体基因序列与其功能的关系。例如,中国中医科学院中药研究所王瑷琦等人采用RAPD方法对我国二级保护中药杜仲的16个群体、260个个体进行了遗传多样性分析,由Nei’s遗传一致度和除权成组配对法(UPGMA)得到的聚类图清晰地将来自北京、陕西、河南、湖北、四川和贵州的16个群体分为四大类。该实验结果验证了长期形态学和胚胎学研究的结论,表明杜仲种内存在显著的遗传分化,在形式上表现为不同树皮类型、不同有效成分含量等[20]。

  3  中药信息的更新与维护

    数据库是需要不断更新与扩充的,对有价值的中药信息不断地收集和整理是保持数据库的有效性、权威性和完整性的必要维护工作。我国中药学巨著《本草纲目》是李时珍在参考了《神农本草经》、南朝齐梁时期的《本草经集注》、唐代的《新修本草》、宋代的《开宝本草》和《嘉佑本草》等历代医药书籍800余部之后写成的。他还坚持深入民间调查,不耻向药农、游医、樵夫、农民、渔民等一切内行人请教,因此《本草纲目》不仅收录前人了解的1 518种药物,还新增了374种。他为纠正古代本草记载中存在的“品种既烦,名称多杂”、“舛谬差讹,遗漏不可枚数”之弊作出了伟大贡献。近几年,作为传统中药的一个重要分支少数民族药物的研究成果正逐渐增多。由于少数民族医药中蕴藏着不少有开发价值的药物,从有民间临床基础的少数民族药物中开发新型药物已成为当前行之有效的新药开发途径。例如,我国藏医药的开发研究已经取得了丰硕的成果。至2003年全国已有14种藏药进入国家药典,有41种藏药材、94种藏成药被列入卫生部首批部颁标准,还有12种藏药被列为国家中药保护品种,13种藏药被列为新药品种[21]。因此,广泛地收集和整理民间草药知识对丰富与完善我国的中药信息数据库具有重大意义。

    在地方药学专著和植物志中还有大量关于民间药物的信息值得深入发掘。比如鸢尾科(Iridaceae)鸢尾属植物鸢尾(Iris tectorum Maxim.)是作为新增品种“川射干”收载于2005年版《中华人民共和国药典》。在陕西、四川、广东等地民间用它治疗咽喉肿痛、肠道寄生虫、癥瘕积聚、风湿痛等症,它的提取物富含黄酮类、糖苷类以及鸢尾醛型三萜类化合物[22]。最新的研究成果表明,从鸢尾根中提取分离出的新三萜类化合物鸢尾醛A和B(iritectol A和B)具有显著的体外诱导人肺癌细胞(COR-L23)凋亡的作用[23]。实际上,我国民间使用的鸢尾科药材种类非常丰富,除了射干属射干[Belamcanda chinensis (L.)DC.]、番红花属番红花(Crocus sativus L.)等常用中药,在《中国中药资源志要》中收载的仅鸢尾属(Iris)药用植物就达到30种。因此,中药研究人员有必要与各地区少数民族药学专家保持广泛的联系,对有明确记载的少数民族常用中药进行调查与收集。对于文献记载不详或易混肴的药材甚至应当走访民间“赤脚”医生进行实地考察。这样做不仅有助于及时补充与完善中药学信息,也有利于纠正某些具有毒副作用的药材在民间的误用,甚至可能发现民间对某些有毒中药材进行去毒的特殊炮制方法。例如,天南星科植物半夏Pinellia ternate (P.tuberifera)是有毒植物,始载于《神农本草经》,列为下品而且没有记载炮制方法。《中华人民共和国药典》2005版除了介绍生半夏以外只提到了清半夏、姜半夏和法半夏3种炮制方法。实际上,经过民间广泛使用和历代不断的发展,目前能够查到的半夏炮制方法就有70多种[24]。

    我国对民族医药有保密制度。开发人员在数据库内容的使用权限上应设置不同的等级,从而达到保护民族医药知识产权的目的。例如:初级用户只能对药典里和期刊上发表的有限信息进行检索;中级用户为国家重点科研院所,可以使用所有数据库资源并进行虚拟筛选等高级分析工作;最高级用户为数据库的构建、管理和维护机构,如科技部、国家食品药品监督管理局、知识产权局、国家中医药管理局、中国科学院等单位能够使用和升级整个数据库系统。用户的帐户管理可以采用绑定IP或动态密码技术。

  4  中药信息学资源的拓展

    中医中药是中华民族在长期实践中积累和发展起来的伟大文化遗产,也是人类利用天然产物祛病强身的典范。它的长期传承和广泛应用不仅由于它是集体智慧的结晶,也是通过人们对它不断总结、扩充与完善而实现的。因此,我们目前所进行的中药信息学研究也不能拘泥自己过去的传统文化,而应当谦虚谨慎地收集和学习其他民族的传统医学和现代天然药物的研究成果,本着“拿来主义”的原则兼收并蓄地发展中药学。

    日本研究人员在这方面做的工作很多。中药在日本称为“汉方药”,是在秦汉时期由中国传入日本,与中医学属于同根同源。不过,现代日本汉方已经形成了独自的体系。理论上以《伤寒论》为框架并且高度简化,重视古方方证。日本已经建立的中医药信息系统和数据库主要分为两大类。一类是以文献为导向的多数据库信息系统;另一类是专家辅助诊断系统,主要有两个临床应用中医软件包:“超级张仲景”和“双方集解”,以及在此基础上建立的中医索引数据库。除此以外,他们还把中国、日本、韩国发表的一些中医文献编成联合目录[25]。为适应社会日益增长的中医药市场需求,日本文部省从2006年起要求《中医学概论》作为日本医生临床考试内容之一,并规定从2008年开始纳入日本医生资格考试的试题范围[26]。

图片内容