论文部分内容阅读
数据挖掘的本质就是从大量而复杂的数据中发现规律的过程,因此数据挖掘可以在生活及工作的各个领域内得到应用。作为一门当下热门的学科其科学理论日益完善,需要将这些理论应用到实际生活中以产生有效的社会及经济价值。本文以数据挖掘在两个关键领域医学诊断及物联网的应用为切入点,通过使用数据挖掘的技术实现对具体问题的解决。癌症是人类疾病史上一个相当顽固的疾病,在中国它每年都夺去了几百万人的生命。但是如果能够在早期发现癌症的存在,其完全治愈率就能够达到60%甚至更高。早期发现癌症的存在,或者如何在早期确诊癌症病例显的非常重要。本文主要的工作是给出了癌症早期诊断的数据挖掘处理流程图,并对其中癌症判定模块中的算法进行了详细的说明。文中将癌症判定的问题转化为数据挖掘的分类问题,通过将属性全部转换为0与1数值类型实现癌症早期判定的快速决策。使用历史数据训练分类器,对分类器进行比较,然后选取分类效果最优的分类器将这个最优分类器作为体检阶段癌症判定的核心分类器。文中的历史属性来源于癌症患者相关属性的数值,同时在进行实验的时候加入一定数量的非癌症病例。物联网作为一个新兴领域,结合现在前沿的传感技术及网络技术将极大的改善人们的生活方式。要真正的发挥物联网的巨大潜能,建立物联网的信息处理系统是必不可少的。如何自动化,智能化的管理信息处理系统是物联网发展的一个瓶颈式的难题。本文描述了一种称之为中心节点的处理方案,其实质是在传感信号接收端增设一种智能节点装置。中心节点能够完成多类型传感器信号的接收,应用数据挖掘技术实现简单的数据情况汇报。此外,设置的中心节点除了具有数据挖掘功能还可以包含节点通信功能,结合中心节点的无线网路设置及安全策略设置将物联网其他应用所需的数据进行传输使得传感器的复用成为可能。对于中心节点的数据挖掘服务中的日常报告模块简单的描述,对其中的异常检测方法进行了详细讨论。将KNN数据挖掘技术应用于异常序列检测,通过密度的计算和比较判定是否出现异常的时间序列。后面的实验部分设计了一个实验通过比较正常序列与异常序列验证算法的可行性,在可行性的基础上讨论K的取值问题。