论文部分内容阅读
自医学放射影像设备问世以来,医学影像在现代医疗活动中正逐渐扮演着举足轻重的地位。对于大多数疾病,确定其相关医学影像中疑似病灶区域类型并建立相应后续治疗方案是提高患者生存率,延长生存期的关键。计算机辅助诊断系统是诊断医学影像中各种早期病变的一种有效手段。通过结合医学影像处理与人工智能技术,该系统能有效提供给医生关于医学影像的“第二诊断意见”,从而大幅度降低医生的阅片工作量,并提高诊断准确率与效率。有监督学习是一种具有较强适用性和可靠性的人工智能领域技术。与其他同类型方法相比,该方法能更好的填补医学影像与诊断信息之间的语义鸿沟,因而目前被广泛应用于计算机辅助诊断系统。众所周知,以有监督学习方式训练一个高性能预测模型的前提条件是需要大量带有类别标签的样本。然而在实际情况下,医学影像却往往并不符合这一前提。相比自然图像,医学影像的采集成本更高,因此可获得的图像数量往往有限。退一步讲,即使采集获得的医学影像充裕,对这些图像前期标注工作又往往过于耗时耗力,且标注者需要掌握大量医学专业知识。这无疑是阻碍基于医学影像的计算机辅助诊断系统发展的最大障碍。主动学习算法的出现为上述问题的解决提供了突破口。不同与传统有监督学习或无监督学习方法,主动学习算法试图通过找出所有未标注样本集中最有价值的小部分样本,从而确保用户能以最小的标注成本为代价,获取最高性能的预测模型。这对于“少样本,缺标签”状态的医学影像,显然具有更为重要的现实意义和理论意义。考虑到医学影像与自然图像之间存在着较大的差异,具体包括:“医学影像标注难度大”,“医学影像获取成本高”,“医学影像之间存在关联”,“医学影像标注需求复杂”与“医学影像数据不平衡”等等。为自然图像与普通样本设计的传统主动学习方法并不能在上述有着特殊特性的医学影像中达到最优,甚至是完全失效,这显然有违算法引入初衷。为此本文试图对传统主动学习方法进行改进,以期适应于有着特殊需求与特性的医学影像,具体工作包括:(1)建立了一种基于排序整合的多准则主动学习方法RMQCAL,该方法灵感源于集成学习。通过引入信息科学领域最新的排序整合作为准则聚合策略,多个任意类型的弱样本查询准则可以被有效结合为一个强准则,从而达到提升主动学习算法效果。与传统多准则主动学习算法不同的是,新算法中各准则前权重参数是根据其贡献大小自适应动态调整的,而非依赖经验设定。因此用于选取最佳参数的验证集也可省去,从而进一步降低样本标注量。总的来说,新算法比传统算法通用性更高,可扩展性更强。通过基于大量公共数据集的对比实验证实,新算法在限制样本标注量下的预测性能确实能与目前最先进的主动学习算法相媲美。(2)在RMQCAL的基础上,建立了一种专门为乳腺图像设计的主动学习方法MDAL,该方法能很好的利用乳腺图像之间存在关联这一特性,使得算法能在大幅度提升诊断模型性能的同时将带标注乳腺癌图像样本的需求量降至最小。另一方面,考虑到乳腺癌诊断的需求更接近一个医学中常用而自然图像中少有的有序回归问题,也就是所谓的图像标注需求复杂。而传统主动学习算法对有序回归任务完全失效。本文首次提出可以通过同时考虑离散度与不确定度准则来实现主动学习在有序回归中的应用,这也是目前该领域下唯一有效途径。(3)考虑到基于主动学习方法训练获得的预测模型只利用了少量最有价值的样本,而对剩余相对低价值样本呈舍弃态度。对于获取成本较高的医学样本,这样做无疑是一种极大的浪费。为此,本文提出一种COAL的改良算法。该算法试图在传统主动学习中引入隶属于无监督学习的co-training协同训练法,从而将剩余低价值样本重新利用起来,在不增高标注成本的前提下,进一步提升预测模型性能。值得一提的是,由于实验环境限制与深度学习网络过高的时间复杂度,需要不断更新预测模型的传统主动学习方法与深度学习技术的契合度并不高。而本文提出的COAL主动学习方法却可以在设备条件有限的前提下,有效的将深度学习技术与主动学习算法相互结合。这无疑为后续深入研究提供了新思路和全新视图。(4)本文设计了一种命名为NCAL的主动学习算法用于解决建立肺结节图像分类模型过程中,肺结节图像数据不平衡与肺结节标注难度大这两个问题。该方法在传统主动学习流程中额外构建了一个用于判定待标注样本可能类型的聚类模型。该模型可尽力确保每个待标注肺结节图像样本隶属于标注者知识区域内,从而避免标注者无法提交正确的肺结节图像类型。同时,该模型也能尽可能地平衡选中待标注肺结节图像的正负样本数量,从而避免出现因同一类型肺结节图像被反复选入标注所导致最终建立预测模型召回率不理想。