整合现代信息检索技术查询收录的技巧探究
来源:岁月联盟
时间:2014-06-25
[关键词]EV2;截词检索;位置检索;TAG;RSS;RefWorks
1 运用截词检索
截词检索是检索英文数据库的一项常见技术,在EI数据库检索中用“,”代替单个字符,用“*”代替多个字符。笔者从以下课题切入,具体分析该技术在查询收录中的应用。
检索课题:请从查全与查准两个角度出发,分别采取不同的策略,对1995到2005年间哈尔滨工程大学师生公开发表或参会论文被Compendex数据库收录情况进行彻查。
为求查全,我们编制了一条表达式(以下称策略一):(HarbinEng*Univ*)wnafandCOREwndt(注:wn=within,af=authoraffiliation,dt=documenttype)
经检索统计,具体结果见表1。
策略一主要运用了EI检索中的截词技术,“*”是通配符,能够代表所有在该位置出现的字母。CORE用来代表核心数据。从作者机构字段入手,返回所有字段中包含HarbinEng*Univ*字样的数据。用策略一的好处是,一个也漏不掉,保证查全率。关于哈尔滨工程大学的各种写法,缩略语和发生拼写错误的词组也能囊括其中。查全率可以做到百分之百。但它的弊端也是很明显的。
在EI数据库中,由于截词算符不能与位置算符(near、onear)同时使用,因此策略一无法控制检索式中每个单词出现的顺序和位置,数据库除了会返回所有哈尔滨工程大学的文章之外,还会把二级学院中有Engineering字样,机构名称中包含Harbin或University的数据一并返回,如:Institute Of Electrical And Electronic Engineering,Harbin University Of Science And Technology(哈尔滨科技大学);School Of Electrome chanical Engineering,Northeast For estry University(东北林业大学);Department of Electrical Engineering,Northeast Agricultural University(东北农业大学);School Of Computer And Information Engineering,Harbin University Of Commerce(哈尔滨商业大学);Schoolof Electronic Engineering,Heilongjiang University(黑龙江大学)等。因此每一次返回的结果都得进行人工筛选,将其他学校排除。
2 运用位置检索
在EI数据库中,用来表示位置检索的算符有两个:NEAR和ONEAR,其中NEAR不限定词间顺序,ONEAR要求词间顺序。
同样上面的课题,如果采用位置检索,并要求与截词检索有同样的效果,该如何进行呢?为求查准,并力争查全,我们编制了以下八条表达式(下称策略二)。
检索策略二:
检索式一(#1):(Harbinonear/0Engineeringonear/0Univ)wnafandCOREwndt
检索式二(#2):(Harbinonear/0EngOnear/0Univ)wnafandCOREwndt
检索式三(#3):(Harbinonear/0Engineeringonear/0University)wnafandCOREwndt
检索式四(#4):(Harbinonear/0Univofonear/0Engineering)wnafandcorewndt
检索式五(#5):(Harbinonear/0Universityofonear/0Engineering)wnafandcorewndt
检索式六(#6):(Harbinonear/0Univofonear/0Eng)wnafandCOREwndt
检索式七(#7):(Harbinonear/0Engonear/0University)wnafandcorewndt
检索式八(#8):(Universityofonear/0Harbinonear/0Engineering)wnafandcorewndt
(注:wn=within,af=authoraffiliation,dt=documenttype)
实施检索后,具体数据见表2。
策略二主要运用了EI检索中的位置算符(near、onear),其中onear要求词间有严格的顺序。这样做的优点就是顾全了策略一无法兼顾的查准率,使得返回的每一条数据都是我们所需要的。但是这种策略要求我们有统一并且规范的机构名称。通过对十一年间哈尔滨工程大学论文被EI收录的数据的观察整理,笔者一共找到关于哈尔滨工程大学英译名的八种写法,按十年间被使用的频次排序如下:
(1)HarbinEngineeringUniversity(462)
(2)HarbinEng.Unvi.(299)
(3)HarbinEngineeringUniv.(163)
(4)UniversityofHarbinEngineering(5)
(5)HarbinUniv.ofEngineering(4)
(6)HarbinUniversityofEngineering(2)
(7)HarbinEng.University(1)
(8)HarbinUniv.ofEng(1)
(9)HarbinEngineeringUnivrsity(1)
显然,用策略二,为了避免遗漏,得将八个检索式的返回结果相加,才能达到与策略一一样的结果。并且,一旦发生拼写错误,被检到的可能性为零。
上一篇:小议馆内人员借阅管理
下一篇:浅谈古籍修复中的古籍保护