国外数字图书馆推荐系统评述
摘 要:本文通过介绍Tapestry, Fab, Citeseer, SERF, Melvy,l Amazon等几种常见的推荐系统,概 述了国外数字图书馆推荐系统的研究进展,分析其主要特点,指出对国内数字图书馆建设具有借鉴意义.
关键词:数字图书馆;推荐系统;研究进展
Abstract:By introducing several common recommendation systems such as Tapestry, Fab, Citeseer, SERF, Melvyl and Amazon, this article summarizes the overseas research progress on digital library recommendation sys- tems, analyzes theirmajor characteristics, and points out their reference significance to digital library construction at home·
Keywords:digital library; recommendation system; research progress
数字图书馆推荐系统是通过向用户提供有关的文献信 息或利用的建议,帮助用户找到和选择比较相关信息的一 种工具。它能够收集和统计用户查找信息,通过分析用户 行为的特点来对信息内容进行推荐。近年来,国外对数字 图书馆推荐系统的研究取得一定的进展,本文将对国外常 见的几种数字图书馆推荐系统加以介绍和评价.
1 Tapestry系统 1992年12月,美国施乐公司研究所开发了Tapestry 系统,这是早期的推荐系统,目的是过滤海量的电子邮 件,推荐电子新闻[1]。在Tapestry系统中,用户可以对阅 读过的文章发表意见,标注出他们是“喜欢”或“讨厌” 这篇文章。其他用户既可以根据关键词检索文章,也可以 根据用户的评注来选择文章阅读。Tapestry系统以促进用 户之间相互了解为前提,从而让用户清楚哪些评注具有参 考价值;它不是自动根据用户兴趣进行推荐,而需通过用 户构造较复杂的查询才能得到检索结果。其体系结构如图 1所示。开发者Goldberg等人还首次提出“协同过滤”的 概念:即人们相互协作,通过记录其对阅读过的文档的反 应态度(有兴趣或不感兴趣)进行筛选,这对以后的推 荐系统研究与开发具有重要的启发意义.
2 斯坦福大学的Fab系统 Fab系统是斯坦福大学数字图书馆项目研究的一部分 内容。1997年3月, M·Balabanovic详细介绍了Fab系统 的结构与功能[2]。Fab旨在帮助用户从海量的互联网信息 中筛选出有用信息。该系统结合了基于内容的推荐和协同 推荐的优点,采用混合推荐技术向用户推荐感兴趣的信 息。其推荐过程可分为两步:第一,收集信息建立可管理 的数据库;第二,为特定用户从数据库中选择所需要的信 息。Fab主要由3个部分组成:收集代理(即查找特定主 题的网页)、选择代理(即为特定用户查找网页)和中央 路由器。每个代理都根据有用户评价的网页所包含的词语 构成一个文档(Profile)。收集代理的文档代表目前的主 题,而选择代理的文档代表单个用户的兴趣。收集代理将 收集到的网页提交给中央路由器,再由中央路由器根据页 面与用户文档的匹配程度向用户推荐页面;用户的选择代 理还可以删除用户已经看过的页面,并在任何单批的推荐 (通常为10页)确保每个站点最多推荐一个页面。用户的 反馈往往投入了大量的时间和精力,应将其存储在各自的 选择代理文档中,并确保不被其他用户反馈所“淹没”.
用户需要对推荐的页面予以评级,据此更新其个人选择代 理的文档以及调整原始收集代理的文档。同时,用户评价 较高的页面直接推荐给具有相近兴趣的用户,实现协同推 荐。而打分特别高的网页将会直接推荐给用户的最近邻 居,即和用户具有相似偏好的其他用户。Fab系统的优点 是综合了各种主要的过滤方法,能够对一些数据量大、变 化性强的信息进行过滤,可以进行动态反馈,实现个性化 推荐服务.
3 C iteseer系统 CiteSeer是在自动引文标引(AutonomousCitation Inde- xing, ACI)的基础上建设的一个学术论文数字图书馆 (网址为http: //citeseer·ist·psu·edu),它提供了一种通过 引文链接检索文献的方式,目标是从多个方面促进学术文 献信息的传播与反馈。CiteSeer可以检索互联网上“Post- script”和“PDF”文件格式的学术论文。它通过网上搜 索引擎,根据给定的关键词查找、下载论文,分解论文, 提取摘要、引文等特征信息,然后建成数据库。用户可利 用关键词或链接到与给定文章有相同引文或引用了该文章 的论文在数据库中寻找相关文献。除了简单浏览和关键词 搜索,系统可利用文字信息和共引分析方法找到相似文 献。CiteSeer采用自动引用标引来提高科技文献分发或检 索的质量,考虑了文档间的引用关系,把引证脉络凸显出 来,按照文章声望的高低向用户发布。这些系统从大的分 类上都为信息检索系统,但同时也包含了信息过滤及协作 过滤技术。CiteSeer预测用户对网页喜好程度,对网页的 评价是通过监控用户的书签以及书签目录隐含信息而得 到。如果把一个URL保存到一个书签目录中,则认为用 户喜欢该URL代表的网页。用户概况表通过一系列URL 来描述。使用最邻近邻居方法计算用户间的相似度,把出 现在多个邻居中的URL向目标用户推荐[3].
Citeseer系统主要由以下部分组成:自动定位、获取 研究刊物的子代理;文档解析器和数据库生成器;支持关 键词检索和引用链接浏览的数据库浏览界面。该系统的结 构见图2。2008年7月, K·Chandrasekaran等人提出了一 种新的推荐方法,系统可以向Citeseer数据库中的作者推 荐他们可能感兴趣的研究论文[4]。首先,根据作者已发表 的论文情况,为其建立用户文档。然后,基于用户文档与 收集到的文档内容的相似性,向作者推荐其他论文。该文 还介绍了一种表示用户文档的新方法:概念树和使用树形 修改距离度量计算用户文档和内容文档之间相似性的算 法。实验证明,基于概念的算法要比传统的基于空间向量 模型推荐技术效果较好.
4 基于图表的数字图书馆推荐系统 2002年,美国Arizona大学的Z·Huang等人介绍了一 种基于图表的数字图书馆推荐系统[5]。该系统综合了基于 内容的推荐系统和协同推荐系统的特征,且在网上书店进 行实施。网上书店记录了图书的主要内容、客户的个人背 景和购买历史等,这些内容与数字图书馆中的文档内容、 用户特征、使用记录等很相似。此方法包括两个阶段。第 一阶段,使用实际客户和图书的特征向量来表示客户和图 书。客户的特征向量包括客户的个人背景,图书的特征向 量主要包括图书的特性和文本信息,如标题、简介、前言 等。然后根据特征向量,利用相似性公式,计算客户与客 户之间以及图书与图书之间的相似性。这种模型比较简 单、直观。第二阶段,对书籍、客户和购买交易模型化, 形成一个扩展的图表。利用第一阶段计算的相似性权重, 构建一个包含图书层和客户层的双层图表。如图3所示.
图3中上层是图书层,下层是客户层。图书层的每个 节点代表一本书,两个节点之间的链接代表两本书内容的 相似性。客户层的每个节点代表一个客户,两个节点之间 的链接代表客户个人背景的相似性。该模型除了描述层内 部的联系,也描述了层与层之间的联系。这些联系基于客 户的购买历史,图书层的节点和客户层的节点间的一条链 接代表着一次购买。在该模型中,推荐活动成为一种图表 搜索任务。模型中有3种链用来寻找与客户有密切联系的 图书,可以使用不同的图表搜索方法来定义推荐条目.
5 俄勒冈的SERF系统 目前图书馆拥有很多数字无障碍资源,既有内容的标 引数据也有大量原始内容。使用现成的搜索技术可以单点 获取图书馆资源,但是这种全文索引技术并不能够完全满 足图书馆查询需要。针对这种情况,美国俄勒冈州立大学 图书馆于2004年设计了一个电子推荐过滤系统(The Sys- tem for Electronic Recommendation Filtering , SERF)[6].
SERF是一种通过协作过滤的新型搜索引擎,当用户提问 时, SERF记录了这个问题,当用户查看结果或利用一个 网页时,可以通过鼠标点击决定找到的信息结果是否有 用。利用SERF可以统计是否满足用户的信息需求结果, 然后再向其他有类似问题的用户进行推荐。经过多次训练 和改进, SERF不断
提高推荐的能力。实验表明, SERF有 效地提高了检索效果和效率。SERF鼓励用户输入更长、 信息量更大的查询,收集用户对搜索结果的评价,看其是 否满足用户的信息需要。这些评价可以为后来有类似需要 的用户提出建议。一段时间后, SERF就可以从用户反馈 中知道哪些文件对哪些信息需求有价值。这种推荐系统有 助于提高图书馆文献信息搜索过程的效率。用户有了推荐 信息后,就只需查看少量的搜索结果,而且推荐的文件往 往比传统的搜索引擎返回的文件用户评价得分高。SERF 的设计和利用深受协同过滤方法影响,希望能对信息进行 更有效的搜索,因为许多用户具有非常相似甚至相同的信 息需求。因此,通过研究第一个人的信息需要,可以减少 其他具有相同需求的用户检索信息花费的时间和精力。然 而, SERF又不同于传统的协同过滤。它不是根据兴趣的 相似性将用户进行匹配,而是根据信息内容的相似性进行 匹配。信息内容不仅包括反映有关用户以往兴趣的个人资 料,也包括对他们当前信息需求的表述。SERF将用户指 定的文字查询作为他们当前需要的指标,用户首先输入与 所需信息相关的问题或陈述,如果之前的用户有过类似的 查询, SERF就向用户推荐之前的用户搜索到的相关且有 用的文件、网站或数据库。SERF通过以下观察确定与问 题有关的资源:①用户明确指出哪些资源是有价值的;② 用户的某种行为暗示着该种资源是有用的,以使用关键词 匹配的技术找到类似的信息需求。SERF实际上是采用协 同过滤进行图书馆资源的搜索.
6 加州大学M elvyl推荐系统 2006年7月,加州大学伯克利分校图书馆项目推出 了Melvyl推荐系统,旨在缩小用户需求及用户对信息检索 系统的期望与图书馆实际能提供的服务之间的差距[6].
Melvyl推荐系统探讨了两种生成推荐系统的方法:第一种 方法利用加利福尼亚大学洛杉矶校区图书馆的流通数据进 行推荐。基于流通数据的推荐是一种以加权图模型为基础 的简便方法,它以图书为节点,以借阅了相同书目的用户 为边。当同一本书被不同用户借阅的次数越多,它在模型 边上的权重就越大。通过沿着同一用户借阅其他条目的 边,可以为模型中的任何一个节点产生推荐。根据边上的 权重可以迅速对推荐进行排序.
如图4所示, A, B, C, D 代表了4个不同条目, A与B, C, D连线上的数字分别代表同 时借阅了A和B的人数为1, A 和C的人数为3, A和D的人数 为5人。因此,对A的推荐排序 依次是: D, C, B。第二种方法 是基于相似性的推荐,通过一定 的手段使用书目记录中的术语,开发具有相似条目的查询 “更多像这样的条目”。该算法为目标条目分析书目元数 据的内容,选择有记录的最重要的术语,形成一个新查 询。排在最前面的条目是由于新查询作为推荐而被提出.