甲型肝炎风险预测中Apriori关联规则应用

来源:岁月联盟 作者:关鹏,曲波,何苗,黄 时间:2010-07-12

【摘要】  目的 进行甲型肝炎疫情风险数据挖掘并形成关联规则。方法 传染病资料来源于辽宁省朝阳市疾病预防控制中心,收集该市1981~1994年的甲型肝炎发病率数据。气象资料由该市气象站提供,内容包括各年相应的13项月气象指标。首先将气象指标和传染病数据离散化为计数资料,分别为高、中和低水平,将源数据库映射为挖掘数据库;然后设置最小支持度为0?1,最小置信度为0?8,利用Apriori算法进行关联规则挖掘,最后由公共卫生专家解释及检验所产生的规则。结果 共形成203个强关联规则,这些强关联规则中蕴含着甲型肝炎发病与季节、气温、气压、降水量、蒸发量等影响因素之间的关联关系。结论 本方法有利于将抽象的数理统计理论转变为实用的关联规则来指导疾病预防控制实践,具有一定的推广应用价值。

【关键词】  甲型肝炎

  甲型病毒性肝炎是由甲型肝炎病毒(HAV)引起的一种肠道传染病,甲型肝炎的流行是我国的重要公共卫生问题之一。国内外研究发现,全球气候变化及其引发的生态环境的改变,是传染病发病率上升、流行区域扩大、流行季节延长的重要原因〔1,2〕。研究气象因素与甲型肝炎发病之间的关系,对于预测甲型肝炎流行趋势和制定有效的防治措施有重要的理论价值和实践意义。本研究旨在探索应用关联规则对原始气象数据和甲型肝炎发病数据进行数据挖掘,提取其中潜在有用的信息和知识,为疾病预防控制专业人员决策提供帮助。

  1  材料与方法

  1?1  资料来源  甲型肝炎发病资料来源于辽宁省朝阳市疾病预防控制中心,共收集1981~1994年的甲型肝炎疫情数据和其他法定传染病的发病数据。气象资料由该市气象站提供,内容包括各年相应的13项月气象指标,具体为平均气压、平均气温、平均降水量和平均蒸发量、日照百分率、无降水日数、最高地面温度、平均最低地面温度、平均地温、月均最高气温、月均最低气温、日照时数、最大降水量。按照25%,75%分位数将气象资料和传染病月发病率连续性的样本数据离散为3个等级,分别为高、中和低水平的计数资料,其中每年12个月高中低的比例为3:6:3。指标聚类分析后,所收集到的气象数据归类为5种指标:温度、降水量、蒸发量、日照百分比和气压,数据维度大大减少。按照季节划分为春季(3~5月)、夏季(6~8月)、秋季(9~11月)和冬季(12、1~2月),由此将源数据库映射成1个单独的挖掘数据库。

  1?2  方法 

  1?2?1  关联规则的定义〔3,4〕  公共卫生相关数据库中关联规则的挖掘定义为:设I={i1,i2,…im}是所有项目的集合,即数据库中的所有字段;D是所有事务的集合,即数据库;每个事务T是一些项目的集合,T包含在I中,每个事务可以用唯一标识符TID来表示。设X为某些项目的集合,如果X?T,则称事务T包含X,此关联规则表示为:(X?T)X?(Y?T)Y;其中X?I,Y?I,X∩Y=?。

  1?2?2  关联规则的指标判定  通过支持度和置信度2个阈值来进行关联规则的判定,因为支持度反映关联规则在数据库中的重要性,置信度用于衡量关联规则的置信程度。如果某条规则同时满足最小支持度和最小置信度则称其为强关联规则。

  1?2?3  关联规则的实现  关联规则的实现通过统计软件R(Version 2?21,Vienna,Austria)来完成,软件R采用Apriori算法,根据预先设定的最小支持度和置信度产生规则。主要确定最小支持度和最小置信度这2个参数来产生规则的项集最大数目,此处设定最小支持度为0?10,最小置信度为0?8。输出结果中包含满足要求的所有规则以及每条规则的支持度、置信度、作用度(置信度与期望置信度的比值)。

  2  结果

  甲型肝炎发病与气象因素和其他传染病发病的关系(表1)  设置支持度为0?10,置信度为0?8后,共形成203个强关联规则,并创建交易树。研究结果表明,朝阳市甲型肝炎以秋季高发,此时平均气压低,气温中等,该时期流行性脑脊髓膜炎低发,而斑疹伤寒则与甲型肝炎具有同时高发的特点。

  表1  Apriori算法所形成的关联规则(略)

  3  讨论

  本研究发现,当地甲型肝炎在秋季平均气压低,气温中等的情况下高发,该时期流行性脑脊髓膜炎低发,而斑疹伤寒则与甲型肝炎具有同时高发的特点。通过上述实例可见,关联规则挖掘能够带给我们一些有用的信息,而这些信息用传统的数据分析方法很难发现。本研究采用的关联规则用于数据挖掘具有很多优点:(1)它可以产生清晰有用的结果;(2)它支持间接数据挖掘;(3)可以处理变长的数据;(4)它的的消耗量是可以预见的。和其他领域不同的是,其他领域不要求弄懂隐含其中的规则的确切含义,只需要获得最大利益就行,而公共卫生管理与疾病控制领域内的预测存在这样几个问题:(1)模型的合理性应该在一个时间和地点相对独立的其他样本上进行检验。(2)模型收集资料尽量全面,应该注意数据的质量。(3)模型应该是透明的,这样才能方便管理者进行决策。(4)数据挖掘一般是建立在相同的训练集和检验集基础之上,模型独立检验条件一般不满足。(5)得到的关联规则不被当前医学知识所普遍接受时如何处理。此时可以使用假设检验的思想,包括专家知识来检验规则的正确性。传染病发病是一个很复杂的行为,除了季节、气象因素之外,还受到其他很多因素的制约与影响。1994年以来辽宁省内各市甲肝疫苗接种量逐年增加,1994年全省接种约10万人份,1996年接种约30~50万人份〔5〕。因此,本研究选用1994年以前的数据,以消除预防接种所带来的影响。今后我们将收集更加全面而丰富的数据进行关联规则分析,以期能够更好地为公共卫生决策服务。

【】
   〔1〕 Staropoli JF.The public health implications of global warming[J].JAMA,2002,287(17):2282.

  〔2〕 Patz JA,Kovats RS.Hotspots in climate change and human health[J].BMJ,2002,325(7372):1094-1098.

  〔3〕 潘福铮.数据挖掘中的关联规则[J].湖北大学学报:版,2002,24(4):304-308.

  〔4〕 胡吉明,鲜学丰.挖掘关联规则中Apriori算法的研究与改进[J].计算机技术与,2006,16(4):99-101,104.

  〔5〕 谢强,刘敏.辽宁省病毒性肝炎的流行病学分析[J].公共卫生,1997,13(11):661-662.