利用数据挖掘技术 做好档案编研选题

来源:岁月联盟 作者:王立萍 时间:2014-04-25

  随着计算机技术和信息技术的发展,信息产生的渠道越来越多,信息更新的频率日益加快,在“数据过剩”和“信息爆炸”的同时,人们正被信息淹没,却饥渴于有用信息的提取。面对浩渺无际的数据海洋,人们迫切需要一种能够从海量的数据中提取有价值知识和信息的技术,基于人工智能的数据挖掘技术便应运而生,并被广泛应用。
  
  一、数据挖掘技术
  
  1、数据挖掘
  所谓数据挖掘(Data Mining,简称DM),是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。数据挖掘是数据库知识发现(KnowledgeDicoveryinDtabases,简称KDD)中的重要技术,它通过对查询内容进行模式的总结和内在规律的搜索,帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为,从而为决策行为提供有利的支持,很多人又将其称为数据淘金。
  数据挖掘是面向数值数据的挖掘,其功能主要有:(1)自动预测趋势和行为。数据挖掘自动在大型数据中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。(2)关联分析。数据关联是数据库中存在的一类重要的可被发现的知识,若两个或多个变量的取值之间存在某种规律性,就称为关联。关联分析的目的是找出数据库中隐藏的关联网。(3)聚类。数据库中的记录可被划分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。(4)概念描述。概念描述就是对某对象的内涵进行描述,并概括这类对象的有关特征,分为特征性描述和区别性描述。(5)偏差检测。数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。
  2、Web挖掘
  Web挖掘是一项综合技术,涉及Web、数据挖掘、计算机语言学、信息学等多个领域。Web挖掘就是从Web文档、Web活动中抽取感兴趣的、潜在的有用模式和隐藏信息。它反复使用多种数据挖掘算法,从观测数据中确定模式或合理模型,也是将数据挖掘技术和理论应用于对Web资源进行挖掘的一个新兴的研究领域。Web挖掘的处理流程为查找资源、信息选择和预处理、模式发现、模式分析。
  Web挖掘可以分为三类0:(1)Web内容挖掘。Web内容挖掘是从文档内容或其描述中抽取知识的过程。Web内容挖掘有两种策略:一种是直接挖掘文件的内容,另一种是在其他工具搜索的基础上进行改进。(2)Web结构挖掘。Web结构挖掘是从Web的组织结构和链接关系中推导知识。由于文档之间的互连Web能够提供除文档内容之外的有用信息,利用这些信息,可以对页面进行排序发现重要页面。(3)Web使用记录的挖掘。Web使用挖掘就是对用户访问Web时在服务器留下的访问记录进行挖掘,其主要目标是从Web的访问记录中抽取感兴趣的模式。Web中每个服务器保留了访问日志,记录关于用户访问和交互的信息。分析这些数据可以帮助理解用户的行为从而改进站点的结构,或为用户提供个性化的服务。
  
  二、数据挖掘技术在档案编研选题中的应用
  
  选题是依据编纂的材料基础和用户的利用需求来确定编纂题目的工作。在数据挖掘技术出现之前,档案编研部门要了解社会用户对档案文献信息的现实的与潜在的需求,只有通过用户抽样调查或者借阅数据的抽样统计来进行,既费时费力,也分析的不够全面具体。有了数据挖掘技术以后,可以利用档案馆的信息管理系统中的用户借阅数据进行分析统计,可以利用用户经常访问的网页进行分析、挖掘,了解到用户的兴趣爱好、研究方向,预测用户需求,从而确定档案编研的选题。
  1、用户利用档案的数据挖掘
  档案用户需求调研是档案编研选题成功与否的关键因素之一。它是指通过一定的方式与方法,在深入调查、掌握档案用户利用需求情况的基础上,揭示各类用户的需求特点与规律的一项业务活动。一般而言,档案馆在日常的档案利用服务中所积累的利用统计数据,可比较准确地揭示某一时期社会档案信息需求的动向。
  档案利用统计的具体指标主要包括档案调卷数量、档案利用次数、复制档案数量、制发档案证明数量等。数据挖掘自动在档案馆的信息数据库中寻找用户利用档案的所有数据,对搜集到的数据进行聚类,利用聚类结果对不同的用户赋以不同的类标记,然后利用分类功能,对用户特征进行建模,挖掘出不同类的用户的不同特征。档案编研部门可以针对不同用户提供个性化服务,按需确定不同类型的编研题目。只有这样,档案编研选题才能贴近社会、贴近公众,编研产品才会被广大用户所认可和欢迎,档案编研的效果与价值才能真正的以用户利用的效益方式体现出来。

图片内容