论文部分内容阅读
在信息技术的推动下,计算机辅助医疗诊断的技术被广泛地应用。研究表明,计算机辅助医疗诊断技术能够减少漏诊,提高诊断准确率。随着医疗水平的不断提高,DNA微阵列技术作为一项重要的基因测序技术可以使我们从基因层面对疾病病理进行分析和研究。寻求一种方法从海量的医学数据中挖掘出有效的生物信息,成为了现代人类的迫切需求。当前对医学数据特别是基因表达数据分类的研究已引起大量研究者的关注。一些传统的机器学习方法,如神经网络、决策树、支持向量机等方法被用于处理医学数据分类问题,但是由于医学数据存在着样本少、维度高、噪声强等特点,传统的方法无法很好地处理该问题。近年来压缩感知作为一种非常有前景的方法已经在许多领域取得成功,本文基于压缩感知理论,针对医学数据分类困难的特点,分别在字典学习、稀疏表达、多核学习三个方面进行深入研究。本文的研究工作和取得的主要研究成果如下:(1)提出一种基于字典学习算法(K-SVD)的分类方法。该方法首先在字典更新时,采用组更新的方式优化了 K-SVD算法,实现超完备字典的优化;其次在信号重构时,改进了正交匹配追踪算法,实现了多元同时更新;最后,在样本类别判断时,优化后的超完备字典不再具备直接的类别信息,但是字典学习算法得到的稀疏系数矩阵可以看作是训练样本集在优化字典上的稀疏表示,而通过重构可以得到测试样本在优化字典上的稀疏表示,因此可以利用稀疏表示的相似性分析实现医学数据分类。该方法的优点在于可以优化超完备字典,去除超完备字典的冗余性,使得学到的字典趋近于正交,有效地处理了医学样本少的问题,不仅提高了分类准确率,而且可以实现对降维后的医学数据的二次特征提取。(2)提出一种双向压缩感知模型,改进常用的重构算法,并将其应用到双向压缩感知模型的求解和医学数据的分类中。模型提出了三种通用的形式:l1范数,F范数和l2,1范数,在重构算法和实验中进行了具体的分析和比较。该模型求解医学数据的双向稀疏表达,行向稀疏表示特征基因选取,列向稀疏表示样本选择。该模型的求解降低了数据的冗余性,去除了部分噪声,提高了分类的准确率。而且行向稀疏矩阵可以用来研究基因间的关系,为生物信息的研究提供新的知识。(3)提出一种基于多核学习的压缩感知模型,改进常用的重构算法,并将其应用到基于多核学习的压缩感知模型求解和医学数据的分类中。本文引入核方法,因为核化后的数据与样本数有关,与样本维度无关,所以核方法有效地解决了医学数据维度高的问题。而多核学习具有更优秀的性能,因此引入多核学习思想。首先采用粗网格搜索法对训练样本进行训练,得到最优的核组合参数,然后对测试样本进行稀疏表示、分类。基于多核学习的重构方法应用到医学数据分类研究中,更有利于提高分类的准确率,而且能够表示样本间的相似关系。该模型还可以解决多模态数据的分类问题。