中医药防治冠心病相关数据挖掘文献的数据挖掘

发布时间:2018-05-05 00:00:00

随着当今医学统计学的发展,各种数据挖掘技术越来越多的应用于中医药的研究之中,对于继承和发展中医先贤以及当代中医大家的学术思想起到了巨大的促进作用,也是中医药现代化过程中的重要环节[1-3]。冠心病全称冠状动脉粥样硬化性心脏病,是最常见心血管病类型之一,也是最常见的心脏病,可引发心力衰竭、心肌梗死等严重并发症,是人类死亡主要病因之一[4]。我国冠心病发病率高达0.5%~1.5%,冠心病已成为公共卫生问题[5-6],成为我国居民主要疾病负担来源之一[7]。但中医药对于提高患者的生存质量有良好的作用,故应用数据挖掘方法研究中医药防治冠心病的规律和特点对于临床防治冠心病有十分重要的意义[8]。本文通过对现代文献中中医药防治冠心病相关数据挖掘进行分析整理,对进一步应用数据挖掘技术研究中医药防治冠心病提供助力。

1资料与方法

1.1文献来源计算机检索中文期刊全文数据库(CNKI)、万方、维普、中国生物医学文献数据库(CBM),运用其数据库中的专业检索功能,运用以下检索式依次进行检索。检索式一为:主题:(‘冠心病’+‘胸痹’+‘心痛’+‘胸痹心痛’)AND(‘数据挖掘’+‘关联分析’+‘聚类分析’+‘因子分析’+‘频数分析’)。

1.2纳入标准①有关中医冠心病的各类数据挖掘研究文献,其中包括频数分析、关联分析、聚类分析、因子分析等数据挖掘方法;②文献中所提“胸痹”“心痛”“胸痹心痛”等须归为现代医学中的“冠心病”。

1.3排除标准①文献综述;②重复发表的文献,只取一篇;③虽中医病名为“胸痹心痛”等,但现代疾病非“冠心病”者。

1.4名称规范参照全国中医药行业高等教育“十二五”规划教材《中医药统计学与软件应用》[9]对统计方法等进行规范。如频数挖掘、频数分析、频数统计等统称为频数分析。

1.5数据库建立及数据核对将上述所纳入文献数据中作者、文章名称、出处、出版日期、文献类型、软件、数理统计方法、资料来源、挖掘方面等各种信息依次录入MicrosoftExcel中,建立Excel数据库。在上述数据录入之后,由双人共同审核数据以确保数据的准确性及可靠性。

1.6数据分析采用频数、频率等分析,通过对作者、文章名称、出处、出版日期、文献类型、软件、数理统计方法、资料来源、挖掘方面等的频率和频率统计,进而分析利用数据挖掘技术对冠心病中医研究的研究进展,为进一步利用数据挖掘技术对研究冠心病提供借鉴和依据。

2结果

2.1文献概况按照检索策略进行文献检索,通过阅读摘要得到137篇文献,再经过阅读全文,结合纳入标准、排除标准,最终得出文献50篇关于冠心病数据挖掘类文献。

2.2文献类别分析通过对文献类别进行数据整理发现,共分为三大类:学术期刊、硕博学位毕业论文和会议论文。频数分析其中学术期刊有25篇,占总文献的50%;硕博学位毕业论文,占总文献的44%,会议论文最少,仅有3篇。具体分布见表1。

表1冠心病相关数据挖掘文献类别频数频率分析

文献类别频数频率(%)
学术期刊2550
硕博士学位论文2244
会议论文36

2.3文献发表时间分析通过对文献发表时间进行频数分析,可以发现冠心病相关数据挖掘的文献最早发表于2003年,到2008年呈现一个小高峰,至2013年又呈现一个高峰,但总体来看,基本的趋势是呈逐年递增的。具体分布见表2、图1。

2.4冠心病相关数据挖掘软件应用分析在进行数据挖掘过程中,必不可少的便是各种统计软件的应用。其一是构建数据库的过程中所需的软件,其二便是各种数理统计所需要的挖掘软件。通过对所纳入的50篇文献进行分析发现,Microsoftofficeexcel成为构建数据库的主要软件,占19.61%;而对于分析软件而言,共出现64种统计分析软件,其中SPSS系列(SPSS和SPSSClem-ent)实用率最高。具体分布见表3~表4。

表2冠心病相关数据挖掘文献发表时间频数频率分析

出版日期发表时间频数频率(%)
200312
200512
200612
200848
200912
201024
201124
2012612
20131326
2014510
2015816
2016612

表3冠心病相关数据挖掘所用数据库软件频数频率分析

数据库软件频数频率(%)
Microsoftofficeexcel1019.61
中医传承辅助平台917.65
未提及713.73
Access59.80
Epidata23.92
临床科研信息共享系统冠心病科研病历数据库23.92
Delphi11.96
MyServer11.96
NoteExpress11.96
SPSS11.96
SQLServer11.96
方剂分析系统11.96
冠心病临床科研一体化平台收集11.96
冠心病中医临床信息采集系统11.96
科研结构化电子病历11.96
验案分析系统11.96
中国中医科学院广安门医院门诊病历系统11.96
中国中医科学院西苑医院心血管诊疗
中心数据库管理系统11.96
中医临床科研信息一体化技术平台11.96
中医临床数据采集系统11.96
中医门诊电子病历系统11.96
中医医案信息采集系统11.96

但是我们在分析上述所需软件发现,中医传承辅助平台[10]、中医验方分析系统、方剂分析系统、方剂智能分析软件、针灸处方分析软件、针灸数据挖掘系统和中医验案分析系统等值得关注,其均是为中医药的研究所自主研发的数据分析系统,具有专门针对中医中药以及针灸等的特点,是传承和发展中医药的一个创新[11-12]。

表4冠心病相关数据挖掘所用分析软件频数频率分析

分析软件频数频率(%)
SPSS1421.88
中医传承辅助系统软件914.06
未提及69.38
SAS57.81
SQLServer工具57.81
SPSSClementine46.25
WEKA34.69
Cytoscape软件23.13
Microsoftofficeexcel23.13
PLSQ数据库23.13
ORACLE23.13
中医验方分析系统11.56
ETL工具11.56
liquorice软件11.56
Pajek软件11.56
R统计软件11.56
方剂分析系统11.56
方剂智能分析软件11.56
针灸处方分析软件11.56
针灸数据挖掘系统11.56
中医验案分析系统11.56

图1冠心病相关数据挖掘文献发表时间频数分析柱状图

2.5冠心病相关数据挖掘方法的分析通过对发表文献中,所采用的数据挖掘方法进行频数频率统计,发现频数频率分析以36.21%的使用率占据第一位,说明应用频数频率分析中医药防治冠心病占重要地位;其次,聚类分析和关联分析也占重要地位,至于其他的因子分析、相关分析、复杂网络分析等则相对应用的较少。见表5。

2.6冠心病相关数据挖掘资料来源的分析所纳入的50篇文献有不同的来源。通过对上述纳入文献中资料来源进行分析整理发现,文献来源主要分为临床病案记录(门诊及病房)、现代期刊硕博文献、中医文献(古籍、方书、医经)和调查问卷等。具体的分布情况见表6。

表5冠心病相关数据挖掘方法频数频率分析

统计方法频数频率(%)
频数频次分析4236.21
聚类分析2118.10
关联分析2017.24
相关分析76.03
复杂网络分析54.31
多因子降维法43.45
互信息分析43.45
回归分析32.59
决策树32.59
定向文本挖掘10.86
多维数据分析10.86
概率转移矩阵10.86
神经网络10.86
数据分层算法10.86
无尺度网络方法10.86
主成分分析10.86

表6冠心病相关数据挖掘的资料来源频数频率分析

资料来源频数频率(%)
临床病案记录(门诊及病房)3570
现代期刊硕博文献918
中医文献(古籍、医经、方书)510
调查问卷12

表7冠心病相关数据挖掘方面频数频率分析

挖掘方面频数频率(%)
选方用药规律2925.44
证型2017.54
症状1815.79
证候要素108.77
治法108.77
证素54.39
选穴规律43.51
病因32.63
证-药32.63
药-证-症21.75
证候要素-黏附因子21.75
病机10.88
病机-治法10.88
关键词10.88
养生方法10.88
证候要素-理化指标10.88
证型-生化指标10.88
症-证10.88
中医诊断标准10.88

2.7冠心病相关数据挖掘方面的分析中医药关于冠心病的方面很多,包括病因、病机、证型、用药规律以及症状、证-药(表示证与药物之间的关系)等等方面。通过对上述纳入文献来看,有关冠心病数据挖掘的方面主要集中于选方用药规律方面,关于证型及症状等方面也较多。同时,在关于证-药、药-证-症、证候要素-黏附因子等两者或者三者之间关系的文献也为数不少。见表7。

3讨论与展望

从所纳入的中医药防治冠心病相关数据挖掘文献情况来看,虽然早在90年代数据挖掘技术就已经诞生,但是将其应用于中医药防治冠心病领域则是20世纪以后的事情[13-14],近5年内才呈现快速增长趋势。统计发现,中医药数据挖掘研究及应用已经由导入及尝试阶段到发展成熟的跨越[15]。相较于中医药数据挖掘研究整体情况而言,中医药防治冠心病的研究则起步较晚,研究深度及广度不足,只有进一步加大研究力度病充分利用数据挖掘的优势,才能有效推动中医药防治冠心病的研究。研究不够深入,在未来的有很大的研究前景,期待数据挖掘技术能在未来的冠心病的研究中大放光彩[16]。

来源:辽宁中医杂志作者:滑振张哲杨关林

精彩图片

热门精选

大家正在看