数据挖掘技术在中医研究中的运用初探
【摘要】 中医学界的研究者正在快速积累大量数据,这些数据对获得有价值的新发现至关重要。然而,由于这些数据的规模、噪声和高维性,传统的方法常常不适合分析这些数据集。数据挖掘技术为探查和分析中医高维的数据类型提供了令人振奋的机会。
【关键词】 数据挖掘;数据库;中医学
数据收集和数据存储技术的快速进步使得各组织机构可以积累海量数据。然而,提取有用的信息已经成为巨大的挑战。通常,由于数据量太大,无法使用传统的数据分析工具和技术处理它们。有时,即使数据集相对较小,由于数据本身的非传统特点,例如像中医的证候信息,也不能使用传统的方法处理。在另外一些情况下,需要回答的问题不能使用已有的数据分析技术来解决。因此,就需要开发新的方法。数据挖掘是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合。数据挖掘为探查和分析新的数据类型以及用新方法分析旧的数据类型提供了令人振奋的机会[1]。中医学界的研究者正在快速积累大量数据,这些数据对获得有价值的新发现至关重要。然而,由于这些数据的规模、噪声和高维性,传统的方法常常不适合分析这些数据集,需要新的数据分析方法。数据挖掘开发的技术可以帮助中医研究人员解决这些问题。
1 数据挖掘概念
数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现先前未知的有用模式。数据挖掘还具有预测未来贯彻结果的能力,例如,预测一位向心性肥胖的人出现乏力、多饮,但目前测量血糖、血脂、血压都正常,在未来半年内是否发生2型糖尿病。数据挖掘是数据库中知识发现(knowledge discovery in database,KDD)不可缺少的一部分,而KDD是将未加工的数据转换为有用信息的整个过程,如图1所示[2]。该过程包括一系列转换步骤,从数据的预处理到数据挖掘结果的后处理。
图1 数据库知识(KDD)过程(略)
数据挖掘利用了来自如下一些领域的思想:(1)来自统计学的抽样、估计和假设检验。(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化,信息论、信号处理、可视化和信息检索[2]。通常,数据挖掘任务分为两大类:一类是预测任务,这些任务的目标是根据其他属性的值,预测特定属性的值;另一类是描述任务,这类任务的目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术验证和解释结果。
2 在中医研究中的探索
(1)预测建模,涉及以说明变量函数的方式为目标变量建立模型。有两类预测建模任务:分类,用于预测离散的目标变量;回归,用于预测连续的目标变量。预测建模可以用来解决中医脉诊的客观化指标确定问题。为进行这一任务,我们需要一个数据集(脉名,相对客观指标1,相对客观指标2,……)。客观指标相对化是指因测量者的体质不同而进行的修正,脉名的确定应该有权威的中医专家确定。由此可以确定不同脉的客观化指标的范围,但需要后处理技术检验。(2)关联分析,用来发现描述数据中强关联特征的模式。关联分析在中医中的应用包括找出某一疾病患者出现的各种症状和体征之间的联系,方剂的配伍规则。对中医古代中复杂的定性描述进行关联分析,揭示其实现标准化[3]。(3)聚类分析,旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。中医标准化诊断和是现今研究的热点,而标准化要解决的第一个问题就是经西医确诊后的疾病的中医证候分类问题[4]。例如,代谢综合征到底有哪些证型,要解决这个问题需要的观测值特别多,而且具有高维性,聚类分析可以进行初步的筛选和分类。(4)异常检测的任务是识别其特征显著不同于其他数据的观测值,目标是发现真正的异常点,而避免错误地将正常的对象标注为异常点。换言之,一个好的异常检测器必须具有高检测率和低误报率。异常检测的应用包括疾病的不寻常模式,药物的不典型副作用。由此可见,对中医观测数据的挖掘应采用多种方法分批、多层次的挖掘,对结果应该综合分析,并且得到专家的一致共识,才有参照意义。
3 适合中医的数据挖掘算法的研究设想
以上所论及的挖掘算法都并非专为中医开发的,它们的适应范围广,中医研究是可以借鉴的[5]。如果根据中医自身特点而研发的挖掘算法,则可以更好解决中医研究中遇到的问题。笔者认为在这方面医圣张仲景已经树立了榜样,他的《伤寒论》就应用了数据挖掘技术。他分析的数据就是大量临床病例,分析数据所使用的方法来源有三,其一是他精通古代数学;其二是他钻研《素问》、《九卷》、《八十一难》、《阴阳大论》、《胎胪药录》等典籍,从中得出的术数模型;其三是一些统计学方法。他得出的模式是六经辨证模式,此模式成为中医临床最重要的辨证模式。六经辨证模式解决了中医外感病的分类与治疗问题,外感病传变、转属等诸多问题。以上虽有杜撰之嫌,但也的确能给研究者一些启示。
【文献】
[1]ZhangHui Tang,著.高 升,译.数据挖掘原理与应用[M].北京:清华大学出版社,2007:2?4.
[2]Pang?Ning Tan,著.范 明,译.数据挖掘导论[M].北京:人民邮电出版社,2006:1?4.
[3]秦雪君,施 诚.数据挖掘技术在中医药领域的应用[J].医学信息,2006,19(5):945?947.
[4]张 琴,刘 平,张文彤.数据挖掘技术在中医证候学研究中的应用[J].上海中医药杂志,2006,40(3):3?5.
[5]龚燕冰,倪 青,王永炎.中医证候研究的方法学述评[J].北京中医药大学学报,2006,29(12):797?801.