古籍数字化的保真问题

来源:岁月联盟 作者:丁侃 柳长华 时间:2010-07-12

【摘要】  保真问题是在古籍数字化过程中,业内专家面临解决数字化古籍使用者所关心的首要问题。本文从实践出发,探讨了数字化过程中的古籍载体转换以及古籍发布形式两个环节上面临的保真问题,并提出了解决保真问题的新思路。

【关键词】  古籍数字化 保真

古籍数字化的保真问题分为两方面,一方面要客观地反映古籍原貌,另一方面要真实地传递其中蕴涵的知识信息。关于保真问题,业内专家进行了多方面的探索和实践,但目前古籍数字化的保真工作仍未完全摆脱机械性的束缚和技术依赖的误区。本文在众多专家研究成果的基础上,尝试提出新的解决思路,希望能为古籍数字化的保真工作提供有益的启示。

  古籍数字化保真问题的由来

  的变迁、地域的差异、传抄刊刻过程中的讹误,以及人为地增删篡改,都给后人阅读古籍造成了障碍,因此书非校不能读也。通过校勘训诂修正错讹,还原古籍中所要传达的真实信息,同时忠实地记录下古籍原来的面貌,以供后人进一步研究甄别,这种校勘训诂的严谨态度,尤以清代学者著称。而且这一传统一直影响到当代的古籍整理工作,古籍数字化载体的优势为古籍的保真提供了更好的解决方案,同时也带来了新的问题,这就是今天古籍数字化保真问题的由来。

  古籍数字化保真的现状

  古籍数字化的保真问题,突出体现在古籍载体转换和数字化古籍发布两个环节。

  1.古籍载体转换环节的保真问题

  古籍数字化工作的第一步是完成传统载体向数字化载体的转换,这一工作的中心环节就是实现汉字的数字图形向数字字符的映射。然而古籍中异体、避讳、通假、俗字、繁体等文字现象,以及传抄刊刻过程中的错讹,造成大量非标准汉字的存在,给这一过程造成了极大的困难。目前对于这一问题的处理出现了以下两种倾向。

  转换过程过于机械。比如古籍中的异写字:“半”上的两点或作八,“疽”字下的且或作旦,再如古籍中的缺笔避讳字:“通”缺中间一竖,“丘”缺中间一竖等。对于这种字形上稍有变化的字都要求反映在数字字符上。陈力先生在国家图书馆的古籍数字化工作中就发现,如果按照这种“依样画葫芦”的做法,即使Unicode字符集扩展到十万字以上也不能完全满足这种机械性的古籍数字化的需求。更重要的是,这种机械性的保真将影响到检索的可信度和精度,并造成数据库在开放、共享方面的困难。因为使用者在检索时并不清楚某部书中某字的具体写法,甚至一部书中同样的字也可能有许多种变体[1]。

  另外古籍中的通假字,只有具备相关专业知识的专家才有能力甄别,比如:《素问·痹论》“凡痹之类,逢寒则虫,逢热则纵”。本句中,“虫”通“