论文部分内容阅读
在机器学习中,许多优秀的分类器大都具有良好的分类性能,但这些分类器模型通常是“黑盒”运算,使得它很难让用户去理解其背后的预测结果产生的原因和过程,如何提高分类器模型的准确性在过去得到广泛研究,而分类器的分类可解释性方面的研究还有待深入。随着实际应用需求,人们对计算机疾病辅助诊断的关注,疾病辅助诊断不仅要求具有较高的准确率,同时迫切需要可以给出解释的分类器模型。在国家自然科学基金(61471124)项目的支持下,本课题主要对分类器的分类可解释性进行研究,提出解释随机森林分类器的方法,并将提出的方法应用到疾病诊断中,提高诊断结果的解释性。具体内容为:一、提出一种将随机森林分类器结合 t-SNE(t-distributed Stochastic Neighbor Embedding,t分布随机邻域嵌入)的分类方法。本文针对随机森林解释性差的缺点,提出基于t-SNE流形学习方法可视化数据在随机森林模型中的内在关系。并在此基础上,提出随机森林结合t-SNE的分类方法:首先采用随机森林去度量不同样本特征数据之间的相似性,然后通过t-SNE流形学习方法产生一个低维空间表示,将低维空间表示数据采用随机森林分类器进行训练,测试样本通过映射到这个空间用来推断该样本数据的标签。最后将提出的方法应用到胎儿心率病态辅助诊断上面,实验表明通过本文方法可以更直观地观察到不同种类样本数据之间的区分程度,同时相比较其它分类方法准确性更高。二、设计基于决策树筛选与稀疏编码理论的随机森林分类规则提取方法。随机森林是一种由决策树组成的组合学习模型,可以从每棵树中提取IF-THEN的分类规则,相比决策树,随机森林由大量的规则组成,其解释性差。为了提高随机森林分类的可解释性,本文首先通过后向序列搜索的方法从随机森林中选择出能够保证分类准确性的决策树子集。其次,采用基于稀疏编码的方法提取决策树子集的稀疏规则。最后,将提出的方法应用到实际的胎儿心率病态诊断中,从医院获取不同类别的胎儿心率数据,依次对其进行降噪处理、特征提取、模型训练、结果解释。结果表明,本文提出的方法在只有三条分类规则的前提下,准确率达到90%以上,能够保证随机森林分类结果的准确性与可解释性。综上所述,本课题针对随机森林模型很难解释的难题,提出新的改进方案。在胎儿心率病态诊断中表明,通过本课题设计的方案,可以确保诊断的准确率,同时也确保诊断结果的可解释性,更加符合疾病诊断的要求,为后续设计出容易被人们理解的疾病辅助诊断系统奠定基础。