中医药领域本体研究概述
【关键词】 本体构建;中医药;综述
本体(Ontology)自20世纪90年代引入计算机人工智能领域后,在计算机及相关领域迅速形成一个研究热点。作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,将在人工智能、知识工程、图书情报等领域具有重要的作用和广阔的应用前景。笔者从中医药领域本体构建、基于本体的中医药语言系统和应用系统三方面对中医药本体研究进行概述,并结合发展现状对其进行展望。
1 本体与本体构建
1.1 本体的概念
本体是源于哲学的一个概念,原指对世界上客观存在物的系统描述,即存在论,后衍生到语言、信息、知识系统等领域,被定义为“概念化的明确的规范说明”。目前,关于本体的定义有很多种说法,但不外有两层含义:一是哲学领域的存在,是本体论的研究对象;二是延伸到特定领域之中,指某套概念及其相互之间关系的形式化表达,包括概念化、规范化、形式化和共享4个特征[1]。
从本体的内涵上看,综合不同学者的认识,本体大都被认为是信息、知识的底层构架工具,用于组织较高层次的知识抽象,是领域知识概念化、形式化的说明,也可以是特定领域内“人机交流”的语义基础,即提供概念与概念之间关系的共识。按照领域依赖程度,本体可以分为顶层、领域、任务和应用本体4类;按照主题可分为知识表示本体、通用本体、领域本体、术语本体和任务本体。中医药本体主要用于描述中医领域知识的专门本体,是专业性本体,一般属于领域本体和知识表示本体。
1.2 本体构建工具与描述语言
在本体构建方面,一是利用已有的叙词表或术语词典进行改造;二是利用现有信息和领域专家从头做起,而以后者较常用。目前已经得到公认的方法包括Bemeras法(KACTUS法)、SENSUS法、“骨架”法、企业建模法(TOVE法)、Methontology法等。Gruber[2]于1995年提出了本体构建的五条规则(明确性和客观性、完全性、一致性、最大单调可扩展性、最小承诺),但本体工程构建方法尚处于相对不成熟阶段。本体的构建工具也有很多,包括protégé、WebOnto、Ontolingua、OntoEdit、Ontosaurus、OntoEdit、IBM Ontology Management System等,其中,protégé 是斯坦福大学开发的使用较为广泛的构建工具之一,目前已有4.0版本。
本体要对概念进行清晰的、形式化的描述,须有相应的描述语言和建模元语(本体描述方法)。本体描述语言一般应具有良好定义的语法、语义,有效推理和良好的表达能力。本体描述语言有很多,包括RDF和RDF-S、OIL、DAML、OWL、KIF、SHOE、XOL、OCML、Ontolingua、Cycl、Loom等。2004年,W3C发布了支持语义网的2个技术标准——RDF和OWL。OWL建立在RDF基础之上,能够确切地表达词表中术语的含义和这些术语的关系,相对于RDF,OWL能够更好地表达语义[3]。Perez等[4]归纳出5个基本的建模元语,即一个完整的本体应该具有类、关系、函数、公理和实例5个部分。
2 中医药本体研究
2.1 中医药领域本体构建
中医本体的构建是通过对中医概念的提取、关系的分析,将中医知识明确、规范地表达,以便于知识的共享和传承。中医药知识体系的复杂性决定了其本体构建的复杂。在分类上,国家知识基础设施(NKI)课题中的中医本体的划分中就有中医诊断方法、中医术语、中医证、中医脉象、中医病机等30多个中医本体类。在NKI基础上还构建了中医舌诊本体和中医肝病本体[5];此外,中医概念的不规范和多重性使得其本体构建更加复杂。因此,中医领域的本体构建多是从其子领域进行探索性研究。
在理论研究上,高氏等[6]认为,构建中医本体是在语义层次发掘中医知识的基础,并就中医顶层本体的概念及其与领域本体之间的关系、本体的构建原则及其在中医顶层本体构建过程中的应用做了初步的探索。
在构建过程中,一般采用protégé工具加OWL语言的模式,侯氏等[7]探讨了中医治则治法的逻辑框架,将中医治则治法分为治则、治疗性常体、治疗属性、治疗语义、治疗操作等大类,对各类概念进行细化,初步建立了中医治则治法的本体,并讨论了其与中医顶层本体的关系。纪氏等[8]以针灸学为特定领域,探讨基于本体论的针灸学领域本体构建方法,初步建立针灸学领域本体框架模型。林氏等[9]构建了中医骨伤古籍小本体,解析了OWL表达的语义关系,尝试实现骨伤古籍语义检索系统,对其进行了系统功能演示及评价。
由于中医领域本体构建的复杂性,利用已有本体或叙词表进行改造而构建新的领域本体也是一种方法。如谷氏[10]通过实例阐述了中医古籍文献领域本体的建模依据与方法,认为古籍本体构建是必要的,目标是为数据库的应用服务,其构建过程需要专业叙词表的支持。李氏等[11]参照《中医脑病学》和《临床中医脑病学》的理论体系、复用已有中医学本体,将中医脑病学本体顶层概念分为13个大类,构建了包括概念及其概念间相互关系在内的中医脑病学本体,并对中医脑病学本体构建过程中存在的复杂性、层次性、模糊性、差异性和兼容性进行了分析和探讨。周氏等[12]探索了中药领域本体的构建,提出了按照自然属性分类法建立概念关系体系,进而构建中药领域本体。
此外,刘氏等[13]还进行了基于历史文献的中医药本体的自动构建研究,利用历史文献及公认的领域知识对中医药核心概念进行全面诠释,解释中医病、证、方、药等核心概念的实质与内涵,利用自然语言处理(NLP)理论和技术方法对已有公认领域知识,并借助领域专家知识,实现基于网络的知识采集与加工,建立起受限文本的本体自学习机制,从而实现领域本体概念描述体系的自动构建。
2.2 中医药语言系统
中医药语言系统(TCMLS)属于术语本体方面的研究。语义本体可以解决“人机”交流障碍,从而利于知识共享,中医知识在交流与传承上的障碍更加明显,因此中医药语义本体意义重大。自2001年开始,中国中医科学院联合全国30多家中医院校和多家科研单位,开始建立“中医药学一体化语言系统”。该系统以本体论为指导,按照本体论原理进行设计,旨在建立一个计算机化的、可持续发展的、包含中医药学及其相关学科的中国医药学检索语言集成系统和机读信息资源指南系统,形成中医药学及其相关学科的语言系统平台。目前,该系统已经成为世界上最大的传统医药本体,有16个一级类目,共编录12862个类[14]。
林氏等[15]对中医药领域概念表达的特点和中医药检索的现状进行分析,以中医方剂学领域本体的构建过程为例,说明本体在中医药自然语言语义化和信息表示上的优势,提出对中医药概念的表达不必单纯地强求标准化和一致性,认为本体可以完整、忠实、准确地表达中医药传统理论的语义,并做到机读、通用、可共享。
曾氏[16]论述了基于本体论的TCMLS构建的思路、设计原则及架构,包括术语及定义的采集范围及标准、定义类和类的等级体系、语义关系等,认为在目前国内外缺乏构建领域本体的成熟流程、方法和标准规范的状况下,TCMLS的建立是一项创新性工作,对系统整理中医药知识,促进中医药学术语数字化、标准化,实现中医药知识的再发现具有重大意义。