互操作联邦数字图书馆研究
来源:岁月联盟
时间:2010-07-05
1 研究数字图书馆互操作的必要性
随着在线数字图书馆(DLs)的日益增多,人们发现必须访问许多DLs才能找到所需要的资料。由于大多数DLs是基于数据库驱动的,现有流行的搜索引擎不能对其内容建立索引。因此,对于那些需要跨越多个DLs查找资料的用户来说,搜索引擎不能满足这种需求。如何将广泛分布的、异构的DLs联合起来向用户提供统一的服务,即实现DLs之间的互操作,成为DLs研究与开发所关注的中心问题。
所谓数字图书馆的互操作是指交换和共享DLs的文档、查询和服务的能力[1]。它要求来自技术(协议和格式等)、内容(元数据及其语义等)和组织(DLs的基本访问原则、支付方式和认证等)三方面的合作。DLs的互操作可以出现在不同的抽象层次上,我们可以将其概括为两类视图[1]:纵向视图(vertical view)和横向视图(horizontal view)。前者涉及、社会、文化和知识产权等方面的问题,后者涉及DLs的硬件和软件即体系结构方面的问题。
为什么要研究DLs的互操作?道理很简单:目前很少有DLs既提供丰富的馆藏资源,又提供有效的服务。尽管目前一些DLs拥有大量的馆藏资源,而另外一些DLs却提供许多的服务,但在这两种情况下,用户都不太容易找到其所需要的信息资源。只有在这些DLs之间实现互操作,才能共享DLs的资源和服务。因此,研究DLs的互操作是十分必要的。
2 联邦数字图书馆的实现方法
为了解决用户使用DLs查找资料时同一查询条件的重复提交问题,人们提出了联邦数字图书馆的概念。所谓联邦数字图书馆是指正式或非正式合作操纵DLs的一些组织,它们同意支持一组共同的服务和标准,以便在联盟成员之间共享DLs的资源,实现互操作。联邦数字图书馆允许跨越不同的DLs执行搜索,并将每个DLs的查询结果合并后返回给用户,使用户感到如同使用单个数字图书馆一样。从联邦的耦合度考虑,实现联邦数字图书馆的方法可分为以下三种:NCSTRL方法、Harvesting方法和搜集(Gathering)方法。
2.1 NCSTRL方法
网上机技术报告图书馆(NCSTRL)是一个拥有100多个机构加盟的联邦数字图书馆[2],它利用Dienst作为DLs的协议和体系结构。凡是要求加入NCSTRL的机构需要在本地安装Dienst服务器,并按照统一规定的数据格式建立其馆藏资源。NCSTRL借助于分布式搜索技术在联盟DLs之间实现资源共享,它将用户的查询送往参与联邦的所有DLs上分别执行,收集返回的结果,综合整理后返回给用户(图1)。
附图
图1 NCSTRL方法
NCSTRL方法要求所有参与联邦的DLs使用相同的协议或软件系统,因此能够提供全面的互操作。但紧密的联邦必将加重联盟成员的负担,它们不得不就技术标准和策略(如知识产权准则、安全和隐私等)达成一致。从和搜索系统方面的限制考虑,NCSTRL是昂贵的运行模式,因为要求每个联盟成员的DLs必须支持复杂的查询语言和对查询的快速实时响应。另外,从查询的频率、元数据的质量以及网络资源的可用性等方面综合考虑,这种实现联邦的方法对联盟成员加负较重。因此,只有那些需求强烈的DLs会采用这种代价较高的模式。
2.2 Harvesting方法
一台计算机能够自动地从其他计算机中收集并提取元数据的方法通常称作Harvesting[3]。利用Harvesting方法建立联邦数字图书馆的基本思想是:从每个DLs收集并提取元数据,经过处理、合并后集中保存在一个中心DL中,然后对保存在中心DL本地的元数据执行搜索(图2)。显然,这种方法需要在中心DL维护一个所有DLs馆藏元数据索引信息的副本,以便提供基于馆藏元数据内容的查询路由服务。
附图
图2 Harvesting方法
Harvest系统[4]是这种方法的代表,它包括一组从各个DLs馆藏中搜集信息并建立基于主题内容索引的集成工具。Harvest体系结构主要包括两部分:搜集者(gatherers)和代理(brokers)。每个搜集者从DLs馆藏中搜集并提取索引信息。代理程序从一个或多个搜集者或其他代理检索索引信息,并按增量方式对其进行更新。代理程序能够为多个馆藏建立集成索引,并提供一个查询界面。
由于Harvesting方法采用集中处理方式,所以能够保证有较好的查询响应时间,但各DLs馆藏元数据内容的变化不能及时得到反映。另外,Harvesting方法不要求严格遵守一组完整的技术协定,只要求做少许支持基本共享服务(如数据访问)的工作。同NCSTRL方法相比,Harvesting方法提供的互操作性相应的要差一些,但对联盟成员的要求却很少。因此,许多组织可能会加入这种松散的DLs联邦。
2.3 搜集(Gathering)方法
对于那些不能正式加盟的DLs组织,仍有可能通过搜集(Gathering)DLs可公开访问信息的途径获得一定程度的互操作。这种联邦方法通常提供统一的用户界面,用户输入查询请求,系统执行分布式搜索,并将合并后的查询结果返回给用户。元数据蜘蛛(MetaCrawler)[5]是搜集方法的代表,它是由美国华盛顿大学实现的并行Web搜索服务。MetaCrawler提供一个智能接口界面,它能将用户的查询并行地送往多个搜索服务(如Lycos、Altavista和Yahoo等),并对返回的结果进行整理,筛除其中重复的内容,然后返回给用户。MetaCrawler体系结构具有许多优点,它在传统的搜索服务之上提供一个抽象层,使其在Web增长和变化时具有较好的适应性、可伸缩性和便携性。
利用搜集方法建立联邦数字图书馆无须任何DLs直接参与合作,但所提供服务的质量比参与合作情况下的要差。同前面介绍的两种方法相比,搜集方法所提供的互操作性最差。目前许多关于Web的研究可视为在这个层次上添加功能,这将会提供更有效的互操作性。尽管期望整个Web表现出丰富的语义不太现实,但是人们还是期望着通过搜集方法提供服务的水平能够逐步地得到改善。
上述三种联邦方法中,NCSTRL方法通过使用相同的协议或软件系统来消除DLs之间的异构问题,因此可以实现全面的互操作。而对现有的DLs来说,Harvesting方法是比较现实的建立联邦数字图书馆的方法。搜集方法虽然能够通过搜集DLs可公开访问信息的途径获得一定程度的互操作,但所提供服务的质量及互操作性较差。表1给出了这三种联邦方法的比较。
表1 三种联邦方法的比较
附图
3 互操作联邦数字图书馆
未来的图书馆将是联邦数字图书馆,其目标是向用户提供一个异构、分布信息源无缝集成的视图,实现对DLs资源的透明访问。联邦数字图书馆的建设不仅包含一系列的关键技术(如元数据、本体论、互操作、多语言支持、统一的接口界面等),而且还涉及到知识产权、等组织方面的问题。就技术层面而言,互操作是联邦数字图书馆的根本问题。来自结构、系统、语法及语义方面的异构性,成为实现互操作联邦数字图书馆的最大障碍。一种实现互操作联邦数字图书馆的途径是采用NCSTRL方法,即所有联盟的DLs都使用相同的通信协议或软件系统,这是比较理想的模式。然而,目前许多DLs都属于自治的信息系统,它们具有各自的搜索界面、体系结构、通信协议和管理策略,在这些异构的DLs之间建立互操作联邦无疑是一种挑战。对此,人们提出了不同的解决方案。其中具有代表性的有:基于中介(Mediation)系统的结构、基于数据驱动的结构、基于Agent的结构和基于OAI互操作框架的结构。
3.1 基于中介(mediation)系统的结构
中介(mediation)结构为实现异构DLs的互操作联邦提供了一条有效途径。它利用一个中介层(mediator)为每种数据源提供一个通用的数据模型和查询界面,使用包装层(wrapper)屏蔽各种数据源之间的异构性。中介层负责接受用户的查询,并将其转换成通用模型。包装层将中介层提供的通用模型转换成针对具体数据源的查询并执行。中介层收集来自包装层转换后的查询结果,将其归并后返回给用户。其代表是[4]中介绍的体系结构,它利用面向对象的数字图书馆系统MARIAN作为网上学位联邦数字图书馆(NDLTD)的中介层中间件(mediation middleware),以期提供一个公共的查询界面和集成平台;使用5SL(一种基于XML的描述语言)描述每个联盟DLs的馆藏服务能力及其内部文档结构。这些描述信息不仅可以为中介层(mediator)提供数据结构,而且允许包装层(wrappers)的半自动化生成。NDLTD体系结构集成了多种采用不同协议(包括Harvest系统、Dienst协议、Z39.50协议和OAI协议)的异构DLs系统,允许使用多种方法定期地从联盟DLs的馆藏中提取信息,经过处理、合并后集中保存在一个联合文档(union archives)中,用户对保存在联合文档中的数据进行查询。NDLTD体系结构实现了结构(异构的)、系统(使用Dienst、Z39.50和OAI等不同的协议)、语法(包含有不同的数据格式)及语义四个层次上的互操作。
中介(mediation)结构为馆藏自治、结构异构的DLs之间的互操作提供了强有力的支持。目前这方面的主要研究工作是将中介结构(包含有实现低层信息到高层抽象转换的组件)同基于agent的系统(包含有控制复杂协商任务的智能对象)相结合。为了更好地支持互操作,各组件之间的通信通常采用标准协议(如HTTP、Z39.50、KQML或CORBA)实现。
3.2 基于数据驱动的结构
基于数据驱动的结构是一种以数据为中心的结构,它既不要求对现有DLs的结构做任何修改,也不要求联盟成员的DLs遵从某种互操作协议,只要求使用数字图书馆描述语言(DLDL)描述各自的馆藏资源(DLs的元数据及其内容)、访问方法和服务能力,并将这些描述信息登记到注册服务器中。当用户通过联邦数字图书馆(FDL)查询时,FDL根据注册服务器中保存的信息,选择出最合适的DLs执行用户的查询,并收集这些DLs返回的结果,合并整理后返回给用户。其代表是美国弗吉尼亚大学的数字图书馆研究小组提出的FDL结构,它包括三个主要部分[2]:①异构DLs的收集及其DLDL描述;②一个基于LDAP的注册服务及主XML归并agent;③一个联邦数字图书馆(即一个基于Java的应用程序,它能够支持不同DLs的集成,使用户感觉到如同使用单个数字图书馆一样)。其中,注册服务允许任何DLs通过向LDAP服务器提交其DLDL描述而成为FDL的一员。
基于数据驱动的结构要求所有加盟的DLs使用统一的数字图书馆描述语言描述各自的馆藏内容、访问方法和服务能力,其查询响应时间是应当考虑的主要因素,服务质量通常由所选择的DLs中服务最差者决定。
3.3 基于Agent的结构
Agent(包括多Agent、智能Agent和移动Agent)的理论、技术,特别是多Agent的理论、技术,为分布式开放系统的分析、设计和实现提供了一条崭新的途径,被誉为“软件开发的又一重大突破”[6]。将Agent技术引入到数字图书馆领域,不仅可以为用户提供个性化的服务,而且使系统具有较好的开放性、可扩展性和可伸缩性。基于Agent的FDL体系结构通常包括用户Agent、中介(mediated)Agents和资源Agents,它们之间通过协商、合作完成某项任务。中介Agents负责与用户Agent、资源Agents和其他中介Agents的交互。用户Agent向用户提供接口界面,接受用户输入的查询请求,转换成通用的查询语言后交给合适的中介Agents。资源Agents作为每个DLs的智能前端接口,负责执行用户的查询,其功能与中介结构中的包装层(wrappers)类似,主要用于隐藏每个DLs的异构性,使用户感到如同使用单个数字图书馆一样。美国密执根大学的数字图书馆原型系统(UMDL)[7]是这种结构的代表,它包括用户接口Agents(UIAs)、中介Agents、馆藏接口Agents(CIAs)和馆藏四个部分。其中,UIAs提供用户使用UMDL资源的接口,并负责维护用户的profiles,以便提供个性化的服务。中介Agents提供信息服务的中介,负责将来自UIAs的查询送往最合适的CIAs,并监控查询的进展情况,传递处理结果以及进行数据格式的转换等。CIAs负责管理UMDL的馆藏接口以及馆藏内容的发布等功能。UMDL利用上述三类Agents,实现了对异构信息源的跨库检索。
3.4 基于OAI互操作框架的结构
开放存档倡导(Open Archives Initiative——OAI)是一个讨论和解决DLs互操作问题的,其目标是为实现DLs的互操作提供简单、有效的机制。OAI的第一次会议于1999年10月在美国新墨西哥州的圣达菲召开,会上制定了关于元数据Harvesting的技术协定——圣达菲协定[8]。该协定主要包括两部分:定义一个简单的元数据元素集——开放存档元数据集(OAMS),以便在存档之间大粒度地发现文档;定义一个公共协议——开放存档Dienst协议的子集(OA-Dienst),以便在存档之间提取OAMS和指定存档的元数据。另外,圣达菲协定还定义了数据提供者(data providers)和服务提供者(service providers)模型。前者指存档的管理者,允许外界通过OAI协议访问其元数据;后者指从数据提供者那里获取元数据,并向用户提供高层服务的实体。目前,圣达菲协定已得到扩充和修改[9],存档内容由起初的版资料(e-print material)扩充到一般的学术数据(scholarly data),选用Dublin核心元素集作为公共元数据集,并将元数据Harvesting协议作为数据提供者和服务提供者之间的通信协议。
OAI为解决DLs的互操作问题提出了一种简单的互操作框架。它要求数据提供者按照标准的元数据格式(如Dublin core)建立其馆藏元数据,要求服务提供者利用OAI的元数据Harvesting协议与数据提供者进行通信。这种结构的代表是Arc[10],它是第一个采用OAI互操作框架实现的联邦搜索服务。Arc能够从遵从OAI协议标准的存档中获取(Harvesting)元数据,经过处理后存入一个基于关系型数据库(如MySQL或Oracle)的搜索服务中。NDLTD[4]联邦数字图书馆也选用OAI互操作框架作为其元数据互操作的部分解决方案,以克服联盟DLs之间的异构性障碍。
OAI互操作框架实际上是通过在数据提供者和服务提供者之间定义一个标准接口来实现DLs之间的互操作,但并没有规定如何选择数据源,也没有强调如何实现服务提供者。另外,利用OAI互操作框架实现的联邦数字图书馆也存在元数据的同步更新问题,目前主要利用基于日期戳(datestamp)的“拉”(Pull)模型解决数据提供者和服务提供者之间的数据同步问题。
4 结束语
建立全球范围的互操作联邦数字图书馆是一项十分艰巨的任务,不仅包含一系列的关键技术,而且还存在着知识产权、、社会和等方面的问题。目前许多DLs都是自治的信息系统,它们具有不同的搜索界面、体系结构、通信协议和管理策略。在这些异构的DLs之间建立互操作联邦面临着以下挑战:①提供统一的接口界面以及将每个DLs映射到该界面的通用映射机构;②提供灵活的集成方式及工具以支持各种异构DLs的集成;③用户对联邦数字图书馆中每个DLs的访问应当透明。这些是建立互操作联邦数字图书馆需要进一步研究和解决的问题。
【】
1 EU-NSF digital library working group on interoperability between digital libraries(position paper), 1999, http://www. iei. pi. cnr. it/DELOS/NSF/interop. htm
2 Barry M. Leiner. The NCSTRL approach to open architecture for the confederated digital library. D-Lib Magazine, December 1998
3 Hussein Suleman, Anthony Atkins, etc. Networked Digital Library of Theses and Dissertations. D-Lib Magazine, September 2001
4 Goncalves Marcos A., Robert K. France and Edward A. Fox. MARIAN: Flexible interoperability for federated digital libraries. proceedings of 5[th] European conference on research and advanced technology for digital libraries( ECDL2001 ), Darmstadt, September 2001, 173~186
5 Erik Selberg and Oren Etzioni. Multi-service search and comparison using the Metacrawler. proceedings of 4[th] world wide web conference, Boston, MA USA, December 1995
6 刘大有,杨鲲,陈建中.Agent研究现状与趋势.软件学报,2000,11(3):315~321
7 Daniel E. Atkins, et al. Toward inquiry-based education through interacting software agents. IEEE Computer, 1996,29 (5): 69~76
8 Van de Sompel, Herbert and Carl Lagoze. The Santa Fe convention of the Open Archives Initiative. D-Lib Magazine, February 2000
9 Lagoze, Carl and Herbert Van de sompel. The Open Archives Initiative protocol for metadata harvesting, 2001 http:/www. openarchives.org/OAI/openarchivesprotocol, htm
10 Lin Xiaoming, Kurt Maly, and Monammad Zubair. Arc-An OAI service provider for digital library federation. D-Lib Magazine. April 2001