基于半监督学习算法的健康大数据分类模型研究与实现

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:liongliong457
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着医疗信息化进程的不断发展,健康数据资料日益累积,传统医疗健康行业逐步迈入大数据时代。对健康大数据进行分析处理,不仅可以提供疾病预测、辅助诊断、决策支持,还能实现有限医疗资源的无限复制、合理分配,进而提高医护人员的服务质量、工作效率。因此对健康大数据进行研究已然成为当前全民关注的热点问题。分类技术是处理健康大数据的常用分析方法之一,对健康大数据进行分类其实质就是根据某些属性特征将数据进行归并,加以区分。由于健康大数据具有很强的领域知识特点,获得大量有标记的数据比较困难,而对无标记健康数据的获取则相对容易。因此,本文结合半监督学习算法,对健康大数据分类模型进行研究。主要工作如下:(1)基于自训练算法对检验数据分类模型进行研究与改进。检验数据通常维数比较低,且具有相关的标准和格式,是一种结构化数据。利用自训练算法对其进行分类时,容易引入误标记样本到训练集中,削弱了分类器的性能,因此本文提出未标记样本重复标记策略对自训练算法进行优化。并以肝功能检验数据为例,构建肝病分类模型。实验表明,优化之后的自训练算法对肝病分类效果更好。(2)基于协同训练算法对病历数据分类模型进行研究与改进。病历数据类型复杂,是一种半结构化的数据,在建立分类模型之前要将数据转换成结构化格式。之后着重研究了协同训练代表算法Tri-training在病历数据分类中的应用。针对Tri-training选择未标记样本时采用隐式估计策略会造成选择结果不准确这一缺陷,本文提出话语权策略,对选择的未标记样本进行二次过滤,完成Tri-training训练过程的优化。并以冠心病病历数据为例,进行分类模型构建。经过实验对比分析,优化之后的Tri-training能更好的对冠心病进行分类。(3)基于图的半监督学习算法对医疗组织图像分类模型进行研究。医疗组织图像是一种非结构化的数据,本文着重研究了基于锚点建图的半监督学习算法在其分类中的应用,并针对未标记样本选择近邻锚点问题进行优化,采用距离均值圈策略过滤远距离锚点。通过实验证明,优化后的算法能更加有效的对胶囊内镜组织图像进行分类。
其他文献
虚拟专用网使用身份认证、数据的完整性验证、数据内容加密、抗重播保护等技术为数据传输提供了安全通道,然而,如果接入虚拟专网的终端节点自身存在着安全风险,或者存在恶意
对等网络(peer-to-peer,简称P2P),是一种没有中央服务器控制和层次管理的分布式网络,节点随时会不加通知就离开网络,必须使用失效检测技术周期性地探测邻居节点的状态,快速地
嵌入式系统是当今热门主题之一,是当前电子技术发展的又一新热点。论文紧跟嵌入式系统发展趋势,采用新的嵌入式系统设计技术——SOPC(System on a programmable Chip,片上可编程
随着宽带Internet的普及,网络技术、多媒体技术的迅速发展,人类已进入信息化社会,在非实时网络课堂应用日趋成熟的同时,广大师生对在线实时系统的需求不断增大,网上实时教学
鲁棒性主成分分析是从受到稀疏噪声干扰的数据中恢复低秩数据实现数据降维的有效方法之一,它在恢复受到稀疏噪声干扰的低秩数据时所表现出的鲁棒性使其受到越来越多的关注并
随着各种通信技术从平行、独立地发展,逐步走向融合,如移动通信技术与IP网络的融合;电信网、电视网、计算机网、卫星通信网络走向融合,形成了新一代技术--M2M技术,以实现人与人(Ma
移动CSCW以其在任何时间任何地点都可工作的工作模式迅速引起关注并快速的发展。特别近几年来,无线通信技术和移动计算技术的发展,尤其3G(第三代数字通信技术,3rd Generation
随着计算机系统的广泛应用和Internet技术的飞速发展,现代企业的运营对于信息技术的依赖程度日益增强,特别是,各类数据已经成为企业正常运作的重要基础。数据容灾在这种大背
随着计算机、网络、以及多媒体技术的迅猛发展,图像处理技术的研究与应用尤其是音视频编解码技术引起了更广泛的关注。同时,嵌入式系统继计算机网络技术之后成为IT领域又一个
中文分词技术属于自然语言处理技术范畴,它是中文信息处理中的一个重要环节,是中文语言理解、文献检索、机械翻译以及语言合成系统中最基本的一部分。对于中文搜索引擎而言,