利用数据挖掘技术构造医学图像分类器的研究
【摘要】 基于数据挖掘的医学图像分类方法研究是多媒体数据挖掘的一个重要组成部分。在分析和了现有各种特征提取方法的基础上,提出了基于竞争聚类和关联规则的医学图像分类算法和基于关联规则的医学图像分类器框架。该算法先用竞争聚集算法实现医学图像的聚类,利用聚类的结果提取局部特征,基于局部特征用关联规则实现医学图像的分类。实验结果表明,用此方法较好地提高了医学图像分类的准确率,进而为数字化临床诊断提供了有利的证据。
【关键词】 数据挖掘 图像分类 医学图像 数字化诊断
Abstract:The multi-media data mining is the key part of the whole researches about the method of medical images classification. Under the base of the analysis and conclusion about the methods of deriving the various characteristics previously provided by other researchers, this framework of the medical images classification with the association rules and clustering was provided. At first, the clustering algorithm was used for the characteristic in local areas ,and then the medical image classification was realized by the association rules. The results of the experiment showed that the accurate rate could be improved by this method, and better testimony could be provided for digital diagnosis.
Key words:Data mining; Images classification; Medical images; Digital diagnosis
数据挖掘立于数据库系统和数据库应用学科最活跃的前沿。数据挖掘就是从大量的、不完全的、有噪声的数据中,提取新颖的、有效的和潜在有用的信息,发现隐含在其中的模式、特征、和知识。其所处理的数据类型很丰富,其应用领域也非常广泛,但针对特定领域(如医学)的复杂数据类型的数据挖掘新方法还有待研究。
医学图像的数据挖掘旨在从海量的图像数据中挖掘出有效的模型、关联、规则、变化、不规则以及普遍的规律,以加速医生决策诊断的过程和提高其决策诊断的准确度。随着医疗数字化设备的快速,医学信息数据库中不仅包括病人的结构化的信息,还包括病人大量非结构化的医学图像信息,为医学图像的数据挖掘提供了丰富的数据源。
近年来,随着机相关技术及图形图像技术的广泛应用,使医学领域尤其是临床诊断发生了重大的变化,开创了数字诊断新时代。借助于图形、图像技术的有力手段,医学影像的质量和显示方式得到了极大的改善,从而借助于图像处理与分析技术使得诊疗水平大大提高。
本研究将医学图像的处理技术与数据挖掘技术有机结合,研究医学图像数据的特征提取和医学图像数据的分类方法。医学图像分类效果的好坏在很大程度上取决于提取的特征。目前国内外有大量的学者正在进行这方面的研究:Maria - Luiza, Osm[1]提出的关联规则分类器和李丙春等[2]的径向基函数分类器都采用了均值、方差、倾斜度和峰度4个特征;韩培友设计的是基于模糊粗糙集、数学形态学和分形特征分类器等[3]。分析这些研究结果可以发现,医学图像数据挖掘的研究是一项复杂的、具有挑战性的和多学科交叉的工作,开展基于医学图像的数据挖掘技术的研究具有重要的理论意义和实用价值。
1 脑部肿瘤图像预处理和特征提取
1.1 图像预处理由于实际数据常常存在不完整性、噪声和不一致性,预处理就变得很重要。有两种数据预处理技术用于图像数据的数据挖掘,即数据清洗和数据变换[3,4]。数据清洗用于清除影响数据挖掘的噪声和孤立点。我们使用的图像包含大量有噪声的背景,有的图像看起来太暗,有的太亮。在预处理阶段,已有的方法都是进行图像的二值化,忽略了图像的最基本元素-像素本身的灰度所具有的意义,而且也没有很好地利用领域知识对图像进行预处理。本研究采用的图像预处理的步骤如下:
1.1.1 利用去噪技术对图像进行处理经过去噪声处理后,可去掉图像中的大多数背景信息和噪声。
1.1.2 图像增强在图像生成、传输和变换过程中,由于多种因素的影响,总会造成图像质量的下降。图像增强的目的是采用一系列技术改造图像的效果或将图像转换成更适合处理的形式。图像的增强处理有两种方法:空域法和频域法。直方图均衡化是在空域中进行的灰度增强算法。一幅对比度较小的图像,其所有灰度级出现的相对频数相同,此时图像的熵最大,图像所包含的信息量最大。本研究采用广泛使用的直方图均衡化技术来实现图像的增强。同时,在此前应该完成去噪声处理,否则噪声也会同时得到增强。
1.2 特征提取原始的脑部医学图像的噪声处理和增强处理后,就可以从这些清晰的图像中抽取与分类相关的图像特征。被抽取的特征组织在一个事物数据库中作为分类系统挖掘的输入。数据库的数据项主要包括:图像编码、图像类型、患者年龄、组织类型、病灶位置等原始病案数据以及从图像中提取出来的多个图像特征。如图像的钙化点,图像的纹理特征:角二阶矩、对比度、方差、逆阶矩、和平均、熵、以及和方差等。在这样的数据集上应用后面讨论的关联规则算法实施数据挖掘操作,从而将脑部肿瘤分类为良性和恶性。
2 利用竞争聚集算法进行数据离散化
为了使用关联规则进行数据挖掘,数量型属性必须离散化。划分区间时,对于某些属性,若医生已经有约定的分割点,我们可以直接采用。但是,对提取出的图像特征属性,没有经验阈值。Agrawal等[4]提出的基于支持度的部分K度完全离散化的方法,扩展了布尔型属性的关联规则算法,并将其应用于数量型属性关联规则的提取。但是这种方法对于一些高偏度的数据存在一些问题,它倾向于将那些尽管具有典型相似性能的相邻数据因具有高支持率而被搁开。而竞争聚集算法[5]综合了分层聚类和划分聚类的优点,它能够有效地体现数据的实际分布情况并得到优化的聚类个数。我们利用竞争聚集算法将数量型属性离散化成若干个优化的区间。对于给定的不同的初始类个数,竞争聚集能随着迭代过程的进展不断改变类的数目,一些竞争力差的类,即类的基数小于给定阈值的类将在迭代过程中不断消失,并最终得到优化的聚类个数。最后,根据模糊集合中的最大隶属原则,将数据集中的元素聚成N个类,并取出类中最小值和最大值分别作为区间的左右端点,这样数据型属性就被离散化成N个优化区间。
3 基于关联规则的医学图像分类器的构造
3.1 关联规则定义如下:
设I={i1,i2,……im}是项的集合。记 D为数据库事务T的集合,并且T?I。对应每一个事务有唯一的标识,记做TID。设X是一个I中项的集合,如果X?T,那么称事务T包含X。
一个关联规则是形如X?Y的蕴涵式,这里X?I,Y?I ,并且X∩Y=?。规则X?Y在事务数据库D中的支持度(Support)是事务集中包含X和Y的事务数与所有事务数之比,记为Support(X?Y),即:
Support(X?Y) =|{T;X∪Y?T,T∈D}/|D|
规则X?Y事务集中的可信度(Confidence)是指包含X和Y的事务数与包含X的事务数之比,记为confidence(X?Y),即
confidence(X?Y)=|{T:X∪Y?T,T∈D}|/|X?T,T∈D|
3.2 利用关联规则对脑部肿瘤图像数据进行分类本研究用关联规则挖掘将数字化的脑部肿瘤图像分为正常和异常两类。
利用关联规则挖掘时,首先发现频繁项目集(即支持度不低于最小支持度的项目集),然后从频繁项目集中提取关联规则。本研究用Apriori算法[6]来发现从脑部肿瘤图像提取出的特征和肿瘤图像所属类别的关联规则。我们约束挖掘出的关联规则,使规则的前提为脑部肿瘤图像提取出的特征,规则的结论为图像所属类别。
用关联规则分类的过程分两个阶段:第1阶段为训练阶段,用已知类型的图像训练分类系统,输入数据为经过预处理、特征提取和数据离散化后得到的事务数据库,然后应用改进的Apriori算法来挖掘满足以上约束条件的关联规则;第2阶段为测试阶段,该阶段对未知类型的图像利用发现的关联规则进行分类。
3.3 图像分类器的构造图像分类器的设计框架见图1。
4 结果与结论
我们从185个脑部肿瘤典型病例数据中经图像预处理及特征提取了27个属性特征数据,这些抽取的特征数据被组织在一个数据库中,经过数量型属性离散化等数据预处理,将数量型属性关联规则问题映射成布尔型关联规则问题,X到一个布尔属性的数据库,作为分类系统挖掘的输入,此时通过Aprior算法进行关联规则的数据挖掘。最后分别训练样本和测试样本分类的准确率。结果表明对脑部肿瘤典型病例数据分类准确率达到86%,测试准确率达到82%。
本研究在介绍了图像预处理及特征提取和数量型属性离散化的基础上,提出了一个基于关联规则的医学图像分类器。可以看出,该挖掘方法中,数据预处理工作十分重要,会直接影响到分类的准确性。从实验结果看,本文提出的医学图像分类器精确度较高,在数字化临床诊断方面具有很好的实用价值。
【】
[1]Maria一Luiza Antonie, Osmar R Zaiane. Associative Classifiers for Medical image[J].Mining Multimedia and Canplex Data,2003,27:9768.
[2]李丙春,耿国华,周明全,等.一个医学图像分类器的设计[J].计算机工程与应用,2004,40(17):230.
[3]韩培友,郝重阳,张先勇,等.基于模糊粗糙集、数学形态学和分形理论的医学图像分类研究[J].计算机应用研究,2004,21(2):241.
[4]Srikant R, Agrawal R. Mining Quantitative Association Rules in Large Relational Tables[J].ACM SIGMOD Issues, 1996, 25(2):1.
[5]Frigui H, Krishnapuram R. Clustering by competitive agglomeration[J]. Pattern Recognition, 1997, 30(7):1109.
[6]Han J, Kamber M. Data Mining Concepts and techniques[M].California: Morgan Kaufmann Publishers, Inc, 2001:149.