论文部分内容阅读
随着医疗信息化进程的不断发展,健康数据资料日益累积,传统医疗健康行业逐步迈入大数据时代。对健康大数据进行分析处理,不仅可以提供疾病预测、辅助诊断、决策支持,还能实现有限医疗资源的无限复制、合理分配,进而提高医护人员的服务质量、工作效率。因此对健康大数据进行研究已然成为当前全民关注的热点问题。分类技术是处理健康大数据的常用分析方法之一,对健康大数据进行分类其实质就是根据某些属性特征将数据进行归并,加以区分。由于健康大数据具有很强的领域知识特点,获得大量有标记的数据比较困难,而对无标记健康数据的获取则相对容易。因此,本文结合半监督学习算法,对健康大数据分类模型进行研究。主要工作如下:(1)基于自训练算法对检验数据分类模型进行研究与改进。检验数据通常维数比较低,且具有相关的标准和格式,是一种结构化数据。利用自训练算法对其进行分类时,容易引入误标记样本到训练集中,削弱了分类器的性能,因此本文提出未标记样本重复标记策略对自训练算法进行优化。并以肝功能检验数据为例,构建肝病分类模型。实验表明,优化之后的自训练算法对肝病分类效果更好。(2)基于协同训练算法对病历数据分类模型进行研究与改进。病历数据类型复杂,是一种半结构化的数据,在建立分类模型之前要将数据转换成结构化格式。之后着重研究了协同训练代表算法Tri-training在病历数据分类中的应用。针对Tri-training选择未标记样本时采用隐式估计策略会造成选择结果不准确这一缺陷,本文提出话语权策略,对选择的未标记样本进行二次过滤,完成Tri-training训练过程的优化。并以冠心病病历数据为例,进行分类模型构建。经过实验对比分析,优化之后的Tri-training能更好的对冠心病进行分类。(3)基于图的半监督学习算法对医疗组织图像分类模型进行研究。医疗组织图像是一种非结构化的数据,本文着重研究了基于锚点建图的半监督学习算法在其分类中的应用,并针对未标记样本选择近邻锚点问题进行优化,采用距离均值圈策略过滤远距离锚点。通过实验证明,优化后的算法能更加有效的对胶囊内镜组织图像进行分类。