基于粗糙集的关联规则挖掘在教师成长中的应用

来源:岁月联盟 作者:姜云苹1 葛世伦1 时间:2010-07-11
摘  要  关联规则挖掘是数据挖掘中的一个重要问题,在最近几年被广泛研究。本文将粗糙集理论及方法引入高校教师成长信息,通过属性约简降低属性纬数,然后基于粗糙集理论进行关联规则挖掘,得出了一些有益的结论,为拓展粗糙集的应用领域做出了有益的探索。     关键词  粗糙集;关联规则;教师成长;区分矩阵;属性约简 

1  引言

    粗糙集理论(Rough Set)是由波兰数学家Z.Pawlak 在80年代初提出的一种处理模糊和不精确性问题的新型数学工具。利用粗糙集理论进行数据挖掘,重要的一点就是基于粗糙集理论的属性约简。通过约简操作降低属性的纬数,出适用于决策支持的知识规则,是粗糙集理论最重要的应用之一。    关联规则挖掘是数据挖掘中的一个重要问题,随着全球范围内数据库中存储的数据量迅速增大,数据间的关联规则往往过于庞大而难以分析,如何有效的得到有意义的关联规则成为研究热点。本文以高校信息化为应用背景,将基于粗糙集理论的数据挖掘技术应用于高校教师成长过程,得到实际可用的关联规则,为管理者提供决策支持。

2  基本概念

2.1  粗糙集理论的基本概念

    粗糙集理论将分类与知识联系在一起,认为知识源于有认知能力的主体的分类能力,并用等价关系形式化表示分类。    定义1:粗糙集理论中定义信息系统为一个如下四元组:S=(U,A,V,F),其中U=(x1,x2,…,xn)是对象集,即论域;A是属性集合,A=C∪D,且C∩D=Φ,其中C为条件属性,D为决策属性;V为属性A的值域;F是U×A→V的映射,它为U中各对象的属性指定唯一值。S又被称为决策表。    定义2:在信息系统S中,对于一属性集I∈A,可构造对应的二元等价关系。IND(I){<x,y>∈U×U|νa∈I,有a(x)=a(y)},称IND(I)为由I 构造的不可分辨关系。不可分辨关系实际上就是I上的等价关系。因此,针对属性集I上的不可分辨关系,U可划分为几个等价类,用U/IND(I)表示。    定义3:约简定义为不含多余属性并保证分类正确的最小条件属性集。假设条件属性集C的简约是C的一个非空子集C′,C和C′必须满足以下两个性质:    (1)ind(C,D)=ind(C′,D),不存在C″ C′有ind(C″,D) =ind(C′,D)。    (2)一个决策表可能同时存在几个约简,C的约简的集合记作Red(C)。这些约简的交集定义为决策表的核(Core),Core(C)=∩Red(C)核中的属性是影响分类的重要属性。    定义4:信息系统S中关于属性集C的区分矩阵M(C)=(mij)n×n定义为:

M(C)=(mij)n×n是代表了区分xi,xj的完整信息。

2.2  关联规则

    关联规则是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构,通过分析数据或记录间的关系,决定哪些事情将一起发生。定义6:设I = {i1,i2,…,in}是项的集合。包含K个项的项集称作K项集。设D是数据库记录的集合,其中每个事务T是项的集合,且TI。设X是一个项集,事务T包含X当且仅当XT。    关联规则是形如XY的蕴涵式,这里XI,YI,且X∩Y=Φ。X称为规则的左部或规则的前提(简记LHS),Y称为规则的右部或结论(简记RHS)。    度量规则的参数是支持度(Support)与置信度(Confidence)。支持度是指数据集中的实例同时包含条件属性与决策属性的共同概率,支持度揭示了规则的重要性。置信度表示实例在包含条件属性的前提下,也包含决策属性的条件概率,它揭示了规则的可信度。在粗糙集理论中支持度与置信度可以表示为:

    其中P(X)表示是指X在数据D中出现的概率,其余雷同。Support(XY)指X、Y在D中同时出现的概率;Confidence(XY)表示在X出现的前提下Y出现的条件概率。如果得到的规则同时满足支持度不小于支持度阈值和置信度不小于置信度阈值,则该规则有意义。

3  基于粗糙集的关联规则挖掘模型

    本文应用基于粗糙集的关联规则的挖掘过程分为三步:数据预处理,属性约简与关联规则的挖掘,见图1。    (1)数据预处理:通过对高校人事数据的初始信息进行数据清洗,缺失值处理,转换及数据选择,获取初始信息表,且初始表转换为粗糙集形式,并明确条件属性集和决策属性;    (2)属性约简:对条件属性进行约简,删除多余属性,用区分矩阵来完成约简和求核,在此基础上生成约简属性集;    (3)关联规则挖掘:输入支持度阈值和置信度阈值,根据数据约简结果,利用粗糙集理献[6]中的算法,进行关联规则的挖掘。


图1 基于粗糙集的关联规则模型

4 基于粗糙集的数据挖掘技术在教师成长中的应用

    随着信息化在社会各方面的迅速普及,高校在近几年来已经掌握了大量的教师信息数据,并形成了相应的教师信息数据库。然而,面对如此海量的信息,高校管理者如何利用,如何从中发现对高校教师队伍建设有实际指导意义的,特别是如何才能将人才的引进及培养与社会的需求正确结合?本文用数据挖掘技术在这方面做了一定的探索和研究,期望能得到一些有益的启示。    下面本文就以高校教师成长信息为例(本文以职称教授及副教授作为高校人才成长的标志,根据参加工作时间的长短作划分为成长的快慢),说明基于粗糙集的关联规则挖掘算法的实施过程。    根据上述构建的数据挖掘模型,利用启发式属性约简算法对高校教师数据进行约简。首先进行数据预处理,其次求出约简或近似约简,并在此基础上根据值约简等减少属性和个体数目,最后提取规则应用于新对象的分析和预测。    1)数据预处理    要用基于粗糙集的数据挖掘方法进行知识发现,就需要首先组织好数据表。本文以某高校教师数据,采用关系数据库模型,经关系数据库的导入及连接并进行抽象、离散化等预处理。将影响教师成长的因素:性别、面貌、专业、第一学历、最高学历、毕业学校、年龄、学历变动、现聘职称、教学能力和科研能力作为系统的条件属性C,而将教师的成长速度作为决策属性D。通过属性选择与处理后的信息表示如表1所示:
表1  属性离散化表示
字段名称数据类型说明
性别float(2)1--男,2—女
政治面貌float(2)划分为四个等级:1-党员、2-共青团员、3-群众、4民主党派
第一学历float(2)分为四个等级:1-博士、2-硕士、3-本科、4-本科以下
最高学历float(2)分为四个等级:同上
毕业学校float(2)概化为三个等级:1-国外高校、2-重点高校、3-普通高校
现聘职称float(2)分为两个等级:1-教授、2-副教授
评定年龄float(2)1-[31,35]、2-[36,40]、3-[41,45]、4-[46,50]、5-大于50
成长float(2)1-快、2-中、3-慢
学历变动float(2)1-是、0-否
专业float(2)划分为两类:1-理科、2-文科
教学能力float(2)离散化为三个等级:1-高、2-中、3-一般
科研能力float(2)离散化为三个等级:1-高、2-中、3-一般

    以上划分等级的标准是根据以往实际经验和需要而确定,按表1的规则概化和离散化原始数据,得到预处理后的数据表如表2所示:
表2  预处理后的教师数据
属性 UCD
性别专业面貌第一学历最高学历毕业学校现聘职称评定年龄学历变动教学能力科研能力成长
1224432231333
2213322211322
3211322211231
4111212121221
5123322131132
            
227123433141233
228223432231232

    2)属性约简    Core = {毕业学校,评定年龄, 教学能力,科研能力,第一学历},然后通过属性重要性,得到性别、专业和政治面貌几乎为零,即性别、专业、政治面貌和最高学历与本决策表的决策几乎无关可以省略。因此得到的约简为R={毕业学校,评定年龄, 教学能力,科研能力,现聘职称, 第一学历, 学历变动,最高学历}。这样提高了后续规则提取的效率。    3)关联规则挖掘    根据上面得到的约简,通过属性之间的隐含关系来挖掘关联规则,给定支持度阈值5%,置信度阈值80%,可得到同时满足支持度阈值和置信度阈值的项目集生成的关联规则有:    (1)(评定年龄 = 1)&(毕业院校 = 2)=>(成长 = 1);    (2)(第一学历 = 2)&(科研能力 = 1 )=>(成长 = 1);    (3)(最高学历=3) & (学历变动=1) & (科研能力= 3) => (成长速度= 3)    (4)(最高学历= 1) & (教学能力= 2) => (成长速度= 1);    (5)(最高学历= 2) & (教学能力= 3) => (成长速度= 2);    (6)(毕业学校= 2) & (评定年龄= 1) & (科研能力= 3) =>(成长速度 = 1);    (7)(现聘职称= 2) & (第一学历= 4) & (最高学历= 3) =>(成长速度= 3);    (8)(第一学历= 3) & (毕业学校= 3) => (成长速度= 2);    (9)(第一学历 = 2) & (学历变动 = 1) => (成长 = 1);    对以上规则的解释如下:    由第一条规则可知:毕业于重点高校的、第一学历是硕士的教师,评职称时在30~35岁之间,有80%以上概率可以断定教师成长快;由第二条规则可知:学历为硕士,科研能力高,则可断定该教师的成长速度快;第三条规则说明如果通过进修最高学历才达到本科,有82%的几率断定教师的成长速度慢;第四条规则说明最高学历是博士,教学良好,则有92%的几率断定教师成长速度快;第五条规则说明最高学历是研究生且教学能力一般,则有85%的概率断定教师的成长速度适中;第六条规则说明毕业学校是重点院校、年龄在31~35岁之间、科研能力低,即有81%的概率断定该教师成长快速;由第七条规则说明职称是副教授、第一学历是本科以下且最高学历是本科,则有82%的概率断定该教师成长速度慢;第八条规则表示第一学历是本科、毕业学校是普通高校,即有82%的几率断定该教师成长速度适中;由第九条规则可知:第一学历是硕士的、学历提高的教师,成长速度快。    由以上规则可以得出:第一学历、毕业学校、学历变动、最高学历、科研能力、教学能力及年龄对教师成长的快慢有显著影响。第一学历是硕士的教师,科研能力较高的教师,属于成长速度快的类型;而第一学历在本科及本科以下的教师,在41~45岁才评上副教授,相对来说成长速度较慢(评为副教授的平均年龄是38岁左右);而最高学历是博士,教学能力良好的教师,成长速度快;重点高校及国外高校毕业的教师,参加工作时间为10~14年职称就被评为教授或副教授(评定副教授参加工作的平均时间为16年),其成长速度显然高于普通高校毕业生。因此,如果学校希望教师能够快速成长,则在人才引进时就要限制引进教师的毕业学校和第一学历。

5  结束语

    粗糙集理论作为一种新型的数据挖掘工具,已经很好的体现了它的优势。本文简要介绍了粗糙集理论的基本知识,应用基于粗糙集理论的关联规则挖掘算法对教师信息数据实例进行分析,挖掘出人才成长的相关要素,对高校人才引进与培养具有一定的指导意义。

[1] WANG Jue,MIAO Duoqian. Analysision  Attribute Reduction Strategies of Rough Set [J] .Journal of  Computer science & Technology, 1998, 13 (2) : 189-193[2]王国胤.Rough 集理论与知识获取[M] .西安:西安大学出版社,2001[3]Han Jiawei , Kamber M.Data Mining Concepts and Techniques[M] . Morgan Kaufmann Publishers,2001[4]白秀玲,崔林,王向阳.一种基于关联规则挖掘的粗糙集约简算法[J] .计算机工程与应用, 2003;39(10) : 185~186[5]童舟,罗可.基于Rough Set 带结论域的关联规则挖掘[J] .计算机工程与应用,2006;25(4):166~169[6]王旭仁,许榕生.基于粗糙集理论的关联规则挖掘研究及应用[J] .计算机工程,2005;31(20):90~92[7]李静,王建军.数据挖掘在高校教学信息化管理中的应用探讨[J] .科技信息,2005(08):300~301