恶性血液病数据库分析系统的建立

来源:岁月联盟 作者:陈雪峰,蔡锋,王静 时间:2010-07-12

【关键词】  ,血液肿瘤

    Establishment of an analysis system based on clinical database of malignant blooddiseases

  【Abstract】 AIM: To establish a database system based on the data of clinical hematological malignant blood diseases, which has the functions of fuzzy research, data analysis assisted diagnosis and scientific statistic. METHODS:  With the assistance of Windows operating system, Delphi6 was used as a simple tool to develop clients visiting port as well as for the analysis, and SQL Server 2000 as the developing and managing tool for rational database, to accomplish the analysis and statistics of data after integrating the statistical systematic software SPSS11.0 into the database system. RESULTS:  The electronic case files and database system of “hematological malignant diseases” was established, which contained the complete information of the diagnosis and therapy of such patients with an aim to provide any time inquire, comparison with relative cases, analysis and statistic of the correlated information with graph and diagram. CONCLUSION:  This hematological malignant diseases database system can resolve some problems of keeping case files in paper and accomplish the digitization of clinical data, with the function of intellectual inquiry and authoritative database analysis, which makes it convenient for doctors to make objective evaluation of the diagnosis and therapy.

  【Keywords】 hematological neoplasms;Database;data mining;assistant diagnoses; statistical analyses;SPSS;rough set

  【摘要】 目的:建立一个基于临床恶性血液病(hematological malignant disease, HM)案为数据源,并具有模糊查询,数据分析辅助诊断,统计等功能的数据库系统. 方法:以Windows操作系统为平台,Delphi6作为开发数据库客户访问端和简单分析的工具,SQL Server2000作为关系数据库开发和管理工具,并将SPSS 11.0集成到数据库系统中实现对数据分析统计功能. 结果:建立HM病历和数据库系统,较完整的记录患者的诊断和信息,实现随时查询,对相似病例比较分析和对相关数据进行数据挖掘及图形或图表统计分析的功能. 结论:集智能查询,数据挖掘和具有权威性统计分析为一体的HM数据库系统,减轻了书面病例维护难的问题,实现临床数据源数字化. 有利于医生对诊疗过程的疗效分析和做出客观评价.

  【关键词】 血液肿瘤;数据库;数据挖掘;辅助诊断;统计分析;SPSS软件;粗糙集

  0引言

  血液病分类多而且数据量十分庞大,增加了诊断方面复杂性和不确定性,为此我们应用数据挖掘技术和成熟的机数据库技术,以临床病例为数据源,建立起具有职能查询,对临床案例进行数据挖掘,辅助医生诊断,对数据进行科学的统计分析的数据库系统. 该系统具有专家系统的特性,不仅可辅助医生做出初步诊断而且对数据具有强大挖掘和分析功能. 使医生能更快学到更多的临床知识,积累更多的临床经验.

  1材料和方法

  1.1硬件和操作系统环境要求数据库服务器初步建立在个人PC机上,PC配置应为Intel Pentium 1.8 G或更高,内存大于128 M,硬盘剩余空间不少于2GB. 操作系统为Win2000或更高版本. 在前期开发阶段,数据库服务器以个人PC机为硬件平台.

  1.2数据源模块本数据库以临床病例为数据源,包括文本数据、图像和图形等,可以对各检查项目和治疗方案进行详细的记录. 同时数据库将录入分型标准和检查诊断标准,建立起知识库.

  1.3数据库开发和维护模块由于SQL Server 2000是一个功能完备的正规数据库管理系统[1],它不仅具有一些大型数据库具备的特性如 :支持数据挖掘、标准的SQL语言、存储过程和触发器等,而且与Windows操作系统有机集成,具有方便易使用的图形界面,极易安装和学习. 所以我们采用它作为本数据库的开发和维护工具. ①数据完整性:使用数据库规则和约束机制对数据的类型进行限制,并且以患者为中心建立多表之间的一一对应关系,从而确保数据的正确性和完整性. ②数据安全性:首先,备份事务日志,在由于误操作等而引起数据损坏情况下,可利用事务日志将数据库恢复到以前正常状态下. 其次,与客户访问程序联合建立用户权限机制,对于不同用户设置不同的权限级别,防止对数据的非法操作. 最后,建立触发器机制,在数据录入之前确保数据正确性和合法性. ③数据库移植:由于SQL Server2000提供了很方便的附加数据库向导,从而使我们可以不同主机之间移植数据库,这样可避免重复多次输入数据的麻烦. ④数据维护:  针对恶性血液病有不同的分型标准的特点,数据库内部将根据不同标准对数据作不同的分类. 同时也将一些常用的分型标准录入到库中如:FAB分类标准,WHO标准等,这样更利于医生及时查阅. 以上四个方面,作为客户端接口,数据库开发和维护模块基本上可以满足用户各种查询需求.

  1.4辅助诊断模块恶性血液病(hematological malignant disease, HM)是一种凶险的疾病,快速诊断、明确分型、早期治疗十分重要[2]. 恶性血液病诊断比较复杂,要结合临床症状,实验室检查,血细胞涂片等作综合分析,才能做出正确诊断 . 我们从临床案例入手,建立起确诊数据库. 在此基础上进行数据挖掘和人工干预的筛选,然后由计算机自动完成统计分析,从中得出具有诊断价值的数据信息(Fig 1). 例如:诊断标准值的范围等. 我们进一步将这些数字化的诊断信息和国内外的HM诊断标准相结合建立起知识规则数据库和推理机系统. 计算机可以以此为基础对患者的检查项目做出初步分析和诊断,为医生作确定诊断打下基础.

  在数据挖掘过程中,我们运用粗糙集理论. 粗糙集理论的特点是不需要预先给定某些特征或属性的数量描述,如统计学中的概率分布、模糊集理论中的隶属度或隶属函数等,而是直接从给定问题的描述集合出发,通过不可分辨关系和不可分辨类确定给定问题的近似域,从而找出该问题中的内在. HM数据库中收录了大量临床案例,即问题的描述集合. 我们从这些案例出发采用启发式算法,进行知识约简. 基本算法是:①得到核(诊疗标准)作为属性约简集的基础. ②按照属性(检查项目)的重要程度从大到小逐个加入属性,直到依赖程度已经与原始属性集的依赖程度相等为止. ③对新加入的每个属性,计算去掉后是否影响依赖系数. 如果不影响则将其删除. 实现属性约简. ④删除同一决策表每个实例中多余的属性值(检查值). ⑤ 求出最小约简.  ⑥ 由最小约简求出逻辑规则. 整个数据约简过程中,仅仅依靠确诊数据库和知识库. 即使在属性不完备的情况下,仍能够获取最近似解,最大程度让数据自己“说话”客观反映事物内在规律.

  血细胞形态学判别分型对HM十分重要[3]. 由于血细胞图像的随机性和相似性,医生要在诊断过程中做出正确的鉴别诊断需积累大量经验. 这无疑给缺乏经验的医生带来了困难. 为此,我们以第四军医大学唐都血液内科大量的血液图片为数据源,以图片的特征信息如细胞类型、分型等为索引,经过系统化分类建立起医学图像数据仓库. 医生在血细胞图像鉴别过程中,可通过智能查询调出与其相似的确诊血细胞图像在同一窗口中显示出来. 方便医生比较鉴别,找出其中的异同从而做出正确地诊断.

  1.5分析模块由于单采血小板和各种凝血因子制剂的应用,HM死于出血的病例有所减少. 60%~75%的白血病或淋巴瘤患者死于感染. 医院感染(NI)是HM的主要死因. 目前,国内HM医院感染的研究都是对大量患者的院内感染资料回顾性分析,从中找出感染原因. 如果用人工对大量的院内感染资料分析处理,不仅低效,而且易出错丢失有统计学价值的信息. 对此,我们利用算法实现对大批量的院内感染资料筛选,结合SPSS统计软件完成对数据统计学分析,提高回顾性分析正确性,防止有价值信息丢失.

  对于数据筛选/分组模块我们仍采用人工干预的方式,增加数据分析的灵活性. 筛选出的数统计分析和分组对照机自动完成,大大减轻了人工处理的计算量,保证了数据计算分析的正确性. 统计分析模块,集成了SPSS统计软件可自动完成对大批量的数据的各种分析,数据输入到SPSS完全由计算机自动完成,医生只需在SPSS统计软件界面下采取相应的统计分析方法,对数据进行的处理分析.  另一方面,在患者整个治疗过程中,计算机根据检查结果对疗效进行动态跟踪,特别是对于治疗中的量化的数据作初步分析如绘出细胞数目变化的曲线图等,并将其与现有的疗效标准比较在图表上做出相应标识,向医生输出比较直观的分析结果. 从而方便医生对治疗方案疗效进行判断(Fig 2).

  2结果

  2.1病例和统计分析HM电子病案,可以较为完整地记录患者诊断和治疗的主要信息,实现了一次输入病案、多次维护病案信息、即时调用查询和对相关数据统计分析的功能. 系统具备灵活的病案信息查询功能,使用者可以根据自己的需要,方便快捷地提取信息,查询后形成的文本文件可以长期保留,任意一个保留文件均可与专业的SPSS 统计分析软件实现无缝连接,并具有后者的所有功能. 根据研究需要形成不同的统计文件并做出相应的统计分析结果,为临床和科研工作提供数据统计功能.

  2.2数据挖掘使用数据挖掘技术和粗糙集理论[4],在原有数据库基础上使知识约简化,使隐含在数据库中的知识显现出来,建立起知识规则数据库. 本系统在此基础上通过推理机实现对HM的初步诊断. 诊断标准中的可量化部分如诊断标准值的范围等完全由计算机算法实现,大大提高了知识库构建的速度. 知识库构建过程中将融入血液内科自己制定的某些标准,增强知识库的完备性,灵活性和自我更新的功能.2.3形态学图谱库建立起血液病形态学图谱数据库,并进行系统化和自动化管理. 方便医生比较鉴别和临床教学使用. 可对治疗过程动态跟踪,根据疗效标准做出量化分析. 辅助医生采取正确的治疗方案.

  3讨论

  数据挖掘(或知识发现)就是从大量的数据中抽取以前未知并具有潜在可用的模式 . 数据挖掘在医学上的应用有其自身的优势,因为医学上收集到的数据一般是真实可靠、不受其他因素影响的,而且数据集的稳定性较强. 这些对挖掘结果的维护、不断提高挖掘模式的质量都是非常有利的条件. 大量而丰富的临床案例将是医生获取知识最佳的资源. 恶性血液病数据库系统的原始处理对象为医学信息数据库,此对象实际上具有知识发现和数字化诊断功能,可同时运用统计软件对患者的信息进行科学的统计分析,它包含医生诊断使用的患者医学影像、病理参数、化验结果、诊断结果及相关的参数如年龄、性别、病史等. 总之,该系统是一套集数据挖掘,统计分析和辅助诊断于一体的HM病案处理软件,有助于临床信息的管理和科研水平的提高. 因而要对医学信息数据库进行数据挖掘和知识发现,发现其中的医学诊断标准和模式,从而辅助医生进行疾病诊断,是数字化医院的必由之路. 是一项具有挑战性和有前途的工作.

  【】

  [1] 陈恩义,吴强,刘鸿波. SQL server 2000开发指南[M].北京:清华大学出版社,2002:1-3.

  [2] 张之南.血液病诊断及治疗标准[M].北京:科学出版社,1997:2-5.

  [3] 吴晓雄.血液病分册[M].北京:医药科技出版社,2001:3-4.

  [4] Hu X. Knowledge Decovery in Databases: An attributeoriented rough set approach [D].