中医古籍电子化系统的研究与实现
2.5 中医古籍中生僻汉字处理
古籍生僻汉字问题是中医古籍电子化工作的一大障碍。目前很多电子化古籍系统采用偏旁相加的方法来写,看起来非常别扭,而且如果遇到无法用偏旁相加的方法来输入的汉字,表达起来会更为麻烦。本系统通过对中医古籍电子化中遇到的生僻汉字问题进行深入研究并对生僻汉字进行分析统计后,对其进行编码、造字,建立繁简字体对照表,增加繁简字体关联互检功能,从而有效提高了搜索准确率。用户可以通过输入相近的简化字或者生僻汉字的模糊发音,即可进行生僻汉字有关的查询搜索。这种简单易用的方法实现了古籍电子化中遇到的生僻汉字的存储、检索和显示,较好地解决了古籍电子化中遇到的生僻汉字问题。
3 中医古籍电子化系统的实现
从2002年开始,中国中医科学院中医药信息研究所先后承担了科技部公益项目《1 100种中医珍籍秘典的抢救整理》、《中医药珍贵典籍的保护技术及相关问题研究》的工作,已初步建立起中医古籍电子化系统。通过自主开发的《古籍编辑器》、《古籍发布系统》,已经完成了1 500种中医古籍的书目元数据信息编辑工作,850余种的数字中医古籍的编辑工作;建立起的中医古籍阅览管理系统,实现简单检索、组合检索、全文检索、模糊检索、精确检索,实现了用户的分级管理,图书分组管理、读者分组管理、网络在线阅读、原文图像浏览等功能。可检索信息48多万条。系统功能正在逐步的建设和完善。
在系统建设中我们也碰到很多问题,如据根项目支持的经费,我们尚不能对数字化的中医古籍全文本化,那么如何实现阅读的检索呢·我们采取了对原书图标注的方法,通过标注,基本能实现古籍中主要知识点的检索。标注的度是达到检索量的要点,标注度过细,会大量增加工作量,标注度过粗,又会遗漏主要认知点,为此我们制定了标注的基本原则。数字古籍的图像,保待了原图原貌,除海外回归古籍是缩微胶片扫描完成外,原书扫描都是彩色储存。这样就大大地增加了储存的量,使图像的处理、图像上传及网上阅读都出现了速度慢的问题,为提高检索和阅读的速度,我们对数据库结构进行了多次优化和设备功能的提升,基本上解决了速度问题。速度问题随着数据量的加大,可能还会出现。
4 小结
本研究结合中国中医科学院中医药信息研究所多年来在中医药珍籍秘典的整理抢救、保护及相关研究方面所取得的经验,提出了一种基于数据库和Web网络技术的中医古籍电子化系统的解决方案,并就解决方案设计了技术路线和系统架构。该方案已在中国中医科学院中医古籍电子化研究项目中得到了良好的应用并取得了一定成效。
随着技术的进步和人们对电子古籍阅读需求的变化,中医古籍电子化系统是在不断发展,许多问题还需进一步研究。如:古籍中同药异名、异药同名,古籍中的病证和现代病名问题,这些目前已有相关的研究成果,如何利用这些成果建立起关联词表,将为中医古籍的阅读检索提供更加便捷的支持。
电子古籍生僻汉字问题的研究。传统的计算机二字节编码技术只能处理2万多个汉字,对古籍中大量的生僻字、俗体字、异体字、通假字、避讳字无能为力。龙语瀚堂典籍数据库采用Unicode四字节编码技术解决了古籍整理和研究中生僻汉字数字化的瓶颈,完善了汉字信息网络化的平台。
提供人性化的电子中医古籍阅读方式也是一个值探讨的问题。新加坡电子书系统有限公司推出的E-Book Systems Pte.Ltd.解决方案,其用户界面将传统浏览的多媒体内容如数码相片、文字、音乐乃至动画等表现形式通过三维翻页界面以虚拟翻书页的方式呈现出来,将自然贴切的真实书本效果带入电脑及网络世界。如何将其技术应用到中医古籍电子系统中,我们还需进一步的探讨。
【参考文献】
[1] 符永驰,孙海舒,李 斌,等.多媒体技术在中医药信息工作中的应用[J].中国中医药信息杂志,2006,13(12):103-104.
[2] Steve McConnell. Code Complete[M]. Washington:Microsoft,2006. 101.
[3] 孙卫琴.Java网络编程精解[M].南京:东南大学出版社,2005.78.
[4] Elliott J. Hibernate程序高手秘笈(影印版)[M].北京:清华大学出版社,2003.195.