论文部分内容阅读
医学眼底图片是一种通过专业片机对于眼底信息拍摄所生成的一种特别的自然图片,这类图片主要应用在医学眼部诊断,为眼科专家在诊断眼底疾病提供强有力的科学根据。然而,对于相机生成的每张眼底图片都需要专业医生进行详细分析,由于眼底图片数量庞大,无疑会浪费很多的时间和精力去分析眼底疾病的疾病种类。如今深度学习技术对眼底图片分类已经取得突破性进展,其准确率大幅度提高,这样的算法大部分针对于是否患有某类疾病的单标签分类的算法,对于一张眼底图片往往可能是患有多种疾病。在本文中,研究对眼底图片进行多分类算法,联合考虑消除类别不平衡和类别数量已知指导分类优化。
图片多标签分类任务是一个比较复杂的问题,不同于单标签多类别分类那样只需要预测出一种类别,它需要将图片中的所有存在的类别都预测出来,这通常是类别数量不确定和其组合多样。本课题通过对眼底图片进行类别数量预测,采用数据驱动的方式从医学眼底图片的数据集中提取出每张图片所包含的病患种类的信息。在类别数量先验的情况下,利用输出类别确定简化多标签分类难度,并提高多标签分类准确率,具体而言:
首先本文对于分类特征提取的网络进行改进,设计了一种VGG结构的仅仅包含10层的新的网络,然后利用元学习的模型类似MAML的学习过程,对该分类网络产生的损失值构造类似感知器网络进行加权映射,最终通过新的损失加权来消除对于训练数据集中的类别不平衡对最终分类准确率的影响。使得最终得到更加精准的类别分类预测。接下来利用以得到的类别信息,设计出一种基于类别数量先验的多标签分类网络。本文对于多标签分类网络进行特征提取采用的是残差网络ResNet50,并在最后输出层做轻微调整,使得将多标签的分类任务转化为多值的二分类任务。之后利用种类数量已知的条件设计出一个Topk的模块,其中Topk用来筛选出最有可能的类别组合,通过利用预测出的种类组合和标签之间的损失值来更新网络参数。并且对于原先的损失函数进行改进,使得它和Topk这一过程相切合。通过对比实验分析,本文的方法在准确率上优于其他的方法,并且在ODIR-5K眼底图片数据集上实现了目前最好的结果。
图片多标签分类任务是一个比较复杂的问题,不同于单标签多类别分类那样只需要预测出一种类别,它需要将图片中的所有存在的类别都预测出来,这通常是类别数量不确定和其组合多样。本课题通过对眼底图片进行类别数量预测,采用数据驱动的方式从医学眼底图片的数据集中提取出每张图片所包含的病患种类的信息。在类别数量先验的情况下,利用输出类别确定简化多标签分类难度,并提高多标签分类准确率,具体而言:
首先本文对于分类特征提取的网络进行改进,设计了一种VGG结构的仅仅包含10层的新的网络,然后利用元学习的模型类似MAML的学习过程,对该分类网络产生的损失值构造类似感知器网络进行加权映射,最终通过新的损失加权来消除对于训练数据集中的类别不平衡对最终分类准确率的影响。使得最终得到更加精准的类别分类预测。接下来利用以得到的类别信息,设计出一种基于类别数量先验的多标签分类网络。本文对于多标签分类网络进行特征提取采用的是残差网络ResNet50,并在最后输出层做轻微调整,使得将多标签的分类任务转化为多值的二分类任务。之后利用种类数量已知的条件设计出一个Topk的模块,其中Topk用来筛选出最有可能的类别组合,通过利用预测出的种类组合和标签之间的损失值来更新网络参数。并且对于原先的损失函数进行改进,使得它和Topk这一过程相切合。通过对比实验分析,本文的方法在准确率上优于其他的方法,并且在ODIR-5K眼底图片数据集上实现了目前最好的结果。