离群点检测算法的研究及其在电子病历处方数据异常检测中的应用

来源 :重庆大学 | 被引量 : 0次 | 上传用户:chhy6266746
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从结构复杂的大规模数据中挖掘出有规律性的、突出意义的且不容易被人们所发现的有价值的可以理解的信息的技术。而离群点检测是数据挖掘领域中的重要课题之一,随着现实生活、互联网等产生的数据越来越多,数据结构越来越复杂,离群点检测迎来了新的难题。本文通过研究分析目前离群点检测算法中存在的问题,对离群点检测算法进行改进,使改进后的离群点检测更加适用于电子病历临床处方异常数据的检测,从而有效地利用医院信息化建设中积累的大量数据,及时检测出临床处方中的异常数据。本文的主要研究内容如下:(1)对自组织映射神经网络聚类算法进行改进,在训练过程中的权值调整公式中加入获胜系数对权值调整的影响,加快算法收敛速度,并且减小由输入顺序所带来的对训练结果的影响。定义反应网络收敛程度的参考函数,根据参考函数对学习率函数进行调整,并将获胜系数引入学习率函数,使算法能自适应的找到当前最适应的学习率,在保证准确率的情况下加快收敛速度。(2)对传统局部异常因子算法进行改进,将“朋友关系”模型引入,提出基于反向近邻密度的局部异常因子算法,重新定义局部异常因子。以解决某些情况下特殊的数据分布会导致LOF算法将正常数据点误判为离群点的问题。(3)在离群点检测算法的初始阶段应用自组织映射神经网络聚类算法,将位于聚簇中心的大部分正常数据移除,获得待检测数据集,减少需要计算局部异常因子的数据量级。在待检测数据集中使用基于反向近邻密度的局部异常因子算法对样本进行检测,在保证算法识别准确率的同时降低算法时间开销。(4)将本文提出的改进算法应用于真实的电子病历临床处方数据,整理临床处方数据,得到按科室划分的临床处方数据矩阵。将数据集预处理后应用传统算法与本文提出的改进算法,分析比较两种算法在真实的电子病历临床处方数据中的检测效果与效率,证明本文对于算法的改进是有效的。
其他文献
“六月红”苹果是Arkasas Black×Summer Apple的杂交后代,2004年引进山西省农业科学院果树研究所,2017年7月通过山西省林木品种审定委员会田间考察。该品种成熟期早,在山西
有关公司战略作用后果的研究是近些年国内外学者广泛关注的一个话题。Miles&Snow(1978,2003)提出将公司战略划分为激进型、分析型和防御型之后,这一分类方式得到学术界的普遍
近年来,随着手机等智能终端的普及,以及社交网络和购物网站的兴起,图像、视频等多媒体数据在互联网上呈现爆炸式的增长。如何从纷繁复杂的图像数据中快速准确检索到用户所需
阿奇霉素(Azithromycin,AZM)属于15元环大环内酿类(Macrolide,MAL)抗生素,临床上用于人上下呼吸道、泌尿道、皮肤及软组织感染和性传播疾病的预防和治疗,目前已被农业部列为
EAST等离子控制系统PCS基于Linux x86服务器搭建,其操作系统实时性影响等离子体控制效果。目前PCS已从集群版升级为单机版,原实时节点间Myrinet网络被速度更快的共享内存取代
猪瘟病毒(Classical Swine Fever Virus,CSFV)、猪繁殖与呼吸综合征病毒(Porcine Reproductive and Respiratory Syndrome virus,PRRSV)、猪流行性乙型脑炎病毒(Japanese Enc
兔痒螨病是由绵羊痒螨(兔亚种)(Psoropts ovis var.cuniculi)寄生于兔的外耳道皮肤表面引起的一种慢性侵袭性寄生虫病。该病传播迅速,尤其在阴暗潮湿、多雨季节蔓延很快,发病
水电站过渡过程是一种暂态现象,伴随着电站工况变化而存在。水电站一般在电网中承担基荷、调峰、调频等任务,其负荷的变化十分频繁,特别是对于可能引起严重事故的机组甩负荷,
轴流转桨式水轮机因自身诸多优点被广泛用于中低水头电站,近年新建、改造中低水头电站中,40m水头段所占比例非常大。由于这些电站建设时间早、机组效率低、稳定性较差,亟待增
在工业4.0大环境下,机器人产业蓬勃发展,为了使机器人达到更高的智能程度,就需要一种智能推理机对实时问题进行推理、求解和学习。基于案例的推理因具有推理时间短且案例容易