数字图书馆信息资源本体论的构建
来源:岁月联盟
时间:2010-07-05
【摘 要 题】信息资源建设
.
【关 键 词】本体论/数字图书馆/层次结构/信息资源
随着信息技术的和数字化时代的到来,数字图书馆应运而生。数字图书馆的核心是数字化信息资源的组织与管理,而目前已有的信息处理方法在对信息客体进行深层描述时存在一定的缺陷。本体论(ontology)从信息客体或信息对象出发,通过建立信息客体之间的概念联系和等级关系,将对信息客体的揭示深入到知识内涵的层次并实现对信息客体内在联系的推理。由于本体论为信息资源组织引入了新的方法和思想,它无疑会对数字图书馆建设产生积极的作用。
1 本体论的概念
本体论原本是中的一个概念,是指从人类行为中抽象出来的现实本质。但信息处理领域中的本体论与哲学领域中的内涵不同,国外一些学者已从多种角度对其进行了描述,如:“本体论是一种概念化的关系明确的模式”;“本体论是解释概念潜在的含义的逻辑关系”;“本体论是可以在人和机器间进行交流的某一领域共同的概念表达”;“本体论是可以共享和再利用的概念化模式”。而Borst则将本体论定义为“共用概念的正规明确的具体的概念化模式”,其“概念化”指的是通过标识某一现象的相关概念而建立的这一现象的抽象模型,“明确”指的是所用的概念的类型和用法的限制有明确的定义,“正规”指的是本体论的实例可以实现机读,“共用”指的是本体论所捕捉的知识带有一般性,而不是某些个体所独有的。
从本体论这些定义可以看出,本体论这一信息处理模式在保持原有核心特征的基础上,本身在逐步发展和完善。简而言之,本体论是一个概念的集合,这些概念包括等级结构、概念间的关系、每个概念所具有的属性及进一步限制的定理。当使用本体论表示数字资源时,是在描述一个事物的两个方面:一是资源外在形式——题名、作者、出版者、文件格式、知识产权等,另一方面是资源内容——文献的主题。两个方面都可以使用本体论来建立等级关系的知识模型,在等级结构的知识模型中可以定义信息客体、信息客体的内容和相关的属性与关系。
2 文本文献本体论的构建
为数字图书馆信息资源构建本体论不是单一的一个层次,而是在传统图书馆的基础上,针对数字图书馆信息资源管理的不同发展阶段,形成一个多层次的体系,其中的第一层就是为文本文献构建本体论。
2.1 可行性分析
文本文献资源是传统图书馆馆藏的主体,随着图书馆数字化进程的深入,对揭示大量文本文献内在关系的需求更为紧迫,因而为文本文献构建本体论成为数字图书馆信息资源本体论构建的第一步。
构建本体论的核心是建立概念的等级结构及定义概念属性,从而利用逻辑推理来推导概念之间的关系。对于文本文献来说,构建本体论的实质就是建立文献之间的等级结构,并定义文献之间的关系。与其它类型的信息资源相比,文本文献本身就有较为规范和概念明确的特点,所以为文本文献信息建立等级结构和定义属性较为便利。因为文本文献的等级关系在MARC上有较好的体现,所以在MARC数据的基础上构建本体论具有较强的可行性和实用性,由此文本文献本体论的构建包括一个MARC记录的转化过程。构建本体论的最终目的是实现推理,利用文献的等级结构和定义的属性可以在转化后的MARC上实现推导文献间关系的目标。构建文本文献本体论的最后一步是将推理的结果生成知识库。
2.2 文献等级结构的建立
构建文本文献信息本体论的基础是文献等级结构的建立。文献的创造过程始于一种思想,即“构思”。这种“构思”一经抽象,则被称之为“表述”。当“表述”出版后,它就成为“版本”。“版本”的物理形式为“载体”;如果是数字化的,这种“载体”则称为“数字化形式”。“载体”的某一版本称为“实例”。
文献等级各层次之间的关系比其看上去要复杂,低层次对高层次而言是一种继承关系。“实例”是“载体”、“版本”等中的一种,因此,“实例”有一个统一题名,这一统一题名可以直接检索到而无需利用文献等级结构导航。在著录逻辑中,文献等级中的每一个概念被定义为“属于”关系,或是一种对上层概念的“延伸”关系。继承的值与“延伸”关系相关上位类的值“相同”。
2.3 MARC记录转入本体论
将MARC字段和值转化为标识的文本要借助4个控制文档,这组文档著录了MARC格式和它与本体论的关系。主控文档将选定MARC字段和编码扫描为一个或多个本体论概念。一些扫描过程视MARC值而定,依据不同情况将单一字段扫描为多个本体论概念。第二个控制文档对多个MARC字段扫描为同一个本体论概念的情况建立优先权。第三个控制文档依据MARC记录的类型和书目层次标识MARC字段内编码的位置。第四个控制文档包括每一个编码的信息,包括编码—值表的长度和位置。
2.4 知识库的生成
将MARC数据转为用本体论概念标识的文本后,依据本体论所规定的文献等级结构及定义的相关属性可以进行如下推理:
·用统一的标准对中间概念的多项进行合并。统一标准算法使用基数限定,这一基数限定是本体论定义的一部分。如果某项的类型属于另一项,且允许多重值,那么该项被合并。
·标识合并相同的构思。有相同统一题名、作者、序列号的构思被视为相同的构思。当缺少统一题名时,使用版本项的题名代替。
·如果文风和相关作者值相匹配,或者版本层的某种衍生关系可以识别的情况下,标识和合并有相同构思的表述。
·在出版者和出版日期相匹配,并且一项的出版形式值是另一项出版形式值的子集时,标识和合并有相同表述的版本项。同时还可在载体层某种衍生关系可以确定的情况下合并版本项。
·依据MARC记录描述的衍生关系建立与先前文献的关系。如果在文献族中未发现原作,则生成原作相关知识的本体论(包括在文献等级结构中衍生文献所在等级以上的全部层次和来自MARC记录的信息)。
最后将推理的结构进行归纳,将具有相同关系的文献合并,从而生成知识库。
3 XML中本体论的构建
数字图书馆管理的不仅是文本文献,还有多媒体信息,因此,为此类信息资源构建本体论就成为数字图书馆信息资源本体论构建的第二个层次。
3.1 可行性分析
由于MARC等处理手段著录多媒体信息的缺陷,数字图书馆必须采用能标识各类型信息资源的标准和技术。XML具有灵活性和可扩展性优势,突破了MARC的局限,可以描述各种类型的文献资源。使用者可利用XML中的DTD自行定义所需的标记语言及XML文件的结构。如果使用者就DTD达成一致,则文献可以用一致的方式创造、传递和翻译,同时保留传递者指明的语义。在XML的DTD中构建本体论可以实现在概念层整合各种类型信息资源,它将来自句法和表述层的信息提高到更为抽象的概念和关系层进行描述,满足了揭示多媒体信息内在关系的需求。
3.2 等级关系的建立
实现基于本体论的XML描述首先要定义描述客体之间的等级关系,这就需要建立等级关系模型。以一个由人和出版物概念等级结构组成的本体论关系模型为例,本体论在框架逻辑中描述概念,规定“人”是“客体”的一个子概念;“职员”和“学生”是“人”的子概念等等。概念“博士生”同时继承了“学生”和“研究者”的属性,相继承的属性被定义在本体论的第二部分,指的是概念之间的关系,在此通过相应类型的属性建立起概念之间的关系。本体论的第三部分是定理,使用这一定理可以在已有事实的基础上推断新知识。例如,假设研究者A和B合作,则可推断出B也是研究者,同时B也与A合作。因此,本体论可以推断不完整的知识。
3.3 本体论DTD的生成
因为继承关系是本体论的核心,而XML本身并不支持这种关系,所以这一关系模式需要借助其它方法才能在DTD中生成。使用XML的参数实体可以实现这一目标,参数实体定义了可以用于DTD的替换字符串,每当参数实体被参照时,这一参照则使用替换字符串来代替。DTDMAKER是一个在XML的DTD中构建本体论的有效工具,它将本体论的概念扫入DTD的元素类型中,即对每一个概念元素类型都做定义,这些元素类型的内容模型由表达概念属性的元素构成。本体论中的属性和XML的属性一样可以表述出来,也就是说本体论的属性可以被扫入相应的XML属性中。最后一步是将本体论属性元素内容模型的规范扫入DTD中。
4 知识管理中本体论的构建
数字图书馆的目标是在对各种文献信息进行组织和管理的基础上,最终实现对知识的管理。在知识管理的全过程中构建本体论,可以实现对知识本身的揭示,实现数字图书馆对信息资源最高层次的管理。
4.1 可行性分析
在知识管理的过程中构建本体论主要由4项工作构成:①建立等级结构;②知识描述;③本体论信息浏览;④在推理基础上提供知识的智能检索。这些内容容易与关系型数据库技术相混淆:本体论模型对应于数据模型,对知识的描述对应于知识库中的数据项,查找则对应于SQL。然而,这种本体论方法与集中的数据库技术有显著的不同,它捕捉的是分布的而不是集中的知识,知识可以直接在它的初始位置被查找(如HTML网页),而不是被分割到相应的数据库中才能查找。这种方法允许对知识进行推断,知识虽然没有明确表达出来,但却可以根据一般性的知识(包含在本体论内)进行推导。
知识管理过程中本体论的构建具有上述优势。在环境下借助相应的基于代理的本体论服务工具,使这一构建过程具有很强的可行性。
4.2 等级结构的建立
构建本体论的关键步骤是等级结构的建立,这一过程与2.2、3.2部分所述内容相似,因此这里省略。
4.3 知识描述
在分布式的网络环境下,需要管理的知识资源分布在网页中,可以在网页中添加本体论的标识语句,如在HTML中对被描述的信息客体添加本体论的onto语句。在标准的Web浏览器如Netscape或Explorer中,onto语句的添加并不影响HTML文件的视觉效果,这样做只是使得主题事物知识的智能Web查找可视化。同时,这可以直接使用(再利用)语句体中的文本知识,避免了知识标注者重复表示相同的信息。
4.4 本体论信息浏览
由于使用者在标注和查询的过程中使用了本体论标识语句,因此,在此阶段可提供便捷的信息浏览。本体论元数据表示的是概念的等级关系,这种等级关系至少容易满足用户的两种需求:①浏览某一类的周围类目,以便寻找最合适的形成某一提问的类,②浏览全部等级,以便快捷地完成由一个等级向另一个等级的导航。
4.5 智能知识检索
在网络环境下可以使用基于本体论的代理服务Ontobroker,它由3个部分组成:网络爬虫(Ontobroker)、推理引擎及查询界面。
首先,Ontocrawler通过标识的网页进行查找并收集标注的知识片断。其次,将知识片断转化为以Ontocrawler所使用的表述语言规范成的事实。不论是推理引擎还是查询用户都不需要了解因特网上事实表述的句法,只有标注者必须使用标注语言。
推理引擎收到用户的提问后,利用两个信息源来推导答案,即主题事物的本体论和Ontocrawler中的事实。推理引擎的基本推理机制类似于知识库中的智能推导系统。
5 结语
由于信息资源组织在数字图书馆中的重要作用,开发有效的信息处理工具已成为数字图书馆研究的一个重点。本体论的构建弥补了现有手段描述信息客体功能上的不足,它既从宏观上为信息资源的有效组织提供了指导思想,也从微观上构成了描述信息客体的标准和技术。本文对国外本体论的理论研究和实践应用进行了深入分析和系统整理,建立了构建数字图书馆信息资源本体论的3个层次体系,并在每个层次的具体操作中形成了从可行性分析到等级结构建立再到本体论生成的方法体系。
【文献】
1 Gruber,T.R.A translation approach to portable ontology specifications. Knowledge Acquisitions, 1993(5): 199-210
2 Uscbold, M. Ontology: principles, methods, and applications. Knowledge Engineering Review, 1996(11) :93-155
3 Farquhar A., Fikes, R. et al. The ontolingua server: a tool for collaborative ontology construction. International Journal of Hunmn -Computer Studies, 1997(46) :707-728
4 Michael, Erdmann. How to structure and access XML with ontologies. Data & Knowledge Engineering, 2001 (36):317-335
5 http://www. aifb. uni-karlsruhe, de/WBE/broker/
6 Birmingham,W. Building ontologies for the Internet: a midterm report. International Journal of Human-Computer Studies, 1999(5) :687-712
7 Guarino,N. Semantic matching: formal ontological distinctions for information organization, extraction, and integration. Computer Science, 1997(5): 139-170
8 Louise, C. Extracting focused knowledge from the semantic Web. International Journal of Human-Computer Studies, 2001 (54):155-184
9 O' Leary, D.E. Impediments in the use of explicit ontology for KBS development. International Journal of Human-Gomputer Studies, 1997(46) :327-337
10 Weinstein, P., Birmingham, W. Creating ontological metadata for digital library content and services. International Journal on Digital Libraries, 1998(2) :20-37
11 Fensel, D. OIL in a nutshell. http://www. ontoknowledge. org/oil/papers. html.
下一篇:信息整流与知识增值服务