基于自编码器的病理图像表征学习方法的研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:huninbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了将人工智能应用于从世界收集的大量无标注数据,一大关键难题是要用弱监督或无监督的学习方法来学习有用的表征。传统医学影像学的图像分辨率往往不足以充分表示清晰的细胞信息,数字病理时代的全切片成像技术带来了多尺度、高精度的更清晰的数字可视化数据,使得病理图像具备更多微观细节信息。卷积神经网络强大的特征提取能力能够有效提取数字病理图像中的特征,然而病理医生的缺失以及病理图像的标注困难使得带有标签的样本不易获得,利用无监督的方式获得可靠的表征对病理进行研究,从而避免医疗资源的浪费已成为大势所趋。无监督学习旨在没有标注的条件下提取数据的关键特征,特征表示的好坏直接决定着下游任务的最终效果。对于表征的衡量不仅要用相应指标来衡量,更重要的是不能使得表征成为不可解释的“黑盒子”,在医学领域的无监督学习中更是如此,因此特征的可视化技术是保证特征可靠性以及医学可解释性的关键,因此本文基于变分自编码器的思想在肝癌病理数据集获得良好的表征解决医学可解释问题,并利用表征解决了不同的下游任务。主要研究内容如下:1)设计无监督的自编码器特征提取模型表征肝癌数据集。能够自动对批量的病理切片进行特征提取,通过不同任务来比较不同编码器的表征能力,通过重构图像以及生成图像等可视化手段展示特征,保证特征可靠性。2)利用自编码器的降维能力进行数据降维可视化来初步分析原始数据集,比较不同降维方法的差异。3)设计基于自编码器的分类模型。该模型对自编码器的表征能力按照分类指标进行量化,进一步验证以无监督方式提取的特征能否胜任主流的分类任务。4)设计肝癌数据集高风险特征可解释算法。该算法将肝癌数据集的表征信息与病人预后信息相关性分析定量筛选出高风险特征,利用自编码器的生成特点可视化高风险特征,为高风险特征赋予医学可解释性。实验结果表明,自编码器模型重构的图像与原图进行对比具有良好的清晰度,同时均方误差较小达到了0.0122,表明结合重构图像以及变分自编码器系列的生成图像得出的表征能够抓住数据集的关键特征。本文基于自编码器的分类模型准确率达到91.4%,代表了无监督的特征提取方式虽然与监督学习有一定差距但达到了不错的表征效果。对高风险特征的可视化找到了具有医学可解释的特征如毛细血管占比、深色细胞核占比、细胞质颜色等,都与癌症病人预后具有强相关性,进一步的说明模型表征出了高级特征,是一种创新性的基于无监督的可分析可解释的关键技术手段。与PCA和T-SNE在二维及三维的可视化比较也表明自编码器具有不错的降维能力,能够初步认识原始数据集。本文肝癌病理生成模型能够生成原始数据集不存在的数据。
其他文献
随着电子技术的蓬勃发展,元器件的功率密度大幅上升,进而使得功率器件的温升激增,温度增长带来的是电子设备失效率的上升,为了提升电子设备的寿命和可靠性,就必须对其进行高效的散热设计。铝、钛、镍、铜、不锈钢等金属的泡沫材料作为密度低且具新颖物理、机械、热、电、声性能的新材料,在轻型结构、吸声、机械阻尼、生物材料,热交换器等领域大有所用。本文对泡沫金属及其散热器进行了理论、仿真和实验三个层面的研究,旨在说
随着注入式红外半实物仿真技术的快速发展,注入式半实物仿真系统对系统闭环延时和红外图像的分辨率、帧频和灰度等提出了更高的要求。因此作为注入式半实物仿真系统中关键设备之一的数据传输系统需要具备高速、低延时和远距离的数据传输能力。本文根据注入式红外半实物仿真系统的要求,设计了一套具有高速、低延时以及远距离传输特点的数据传输系统。数据传输系统可以支持上下行两条链路功能。下行链路:发送卡接收图像仿真计算机的
射频功率放大器作为射频模块的核心部件,广泛应用于物联网、传能、通信、雷达、检测等领域。作为各类射频模块中最大的耗能部件,它的功率输出能力和转换效率会直接对整个射频模块的性能产生重大影响。如何使射频功率放大器输出最大功率时实现更高的效率,已然成为当前高效率射频功率放大器的重要研究内容。本文针对高效率F类功率放大器展开研究,通过对比分析目前的文献研究成果,发现窄带F类功率放大器仍存在调试难度大、电路品
在大数据时代下,计算机系统所需处理的数据量爆炸式增长,片上网络和众核系统的逐渐成熟一定程度上缓解了系统遇到性能瓶颈的问题。但随着众核系统在计算力、通信力方面的提升,这些核心在处理数据时访问内存的频率也会增加,若不优化与内存访问服务相关的系统架构,则内存带宽无法匹配处理器核巨大的数据流通需求。增加片上网络中存储访问控制器,即内存控制器的数量可以看做增加带宽的一种方法。但随着核心逐渐增多,在满足处理器
随着人工智能技术的发展,在许多任务中,以神经网络为代表的机器学习模型已经表现出接近甚至超越人类水平的性能。但是,此模型通常是无法扩展其“功能”的静态模型。每当有新数据出现需要进行训练时,模型就需要使用全部数据重新开始训练。在现实世界中,这种做法在部分应用场景中会变得非常棘手。由于存储限制或隐私问题,很多数据可能会在给定时间后就会消失,甚至根本无法存储,这使得神经网络能够随着时间的推移进行适应和更新
随着时代的进步和科技的发展,互联网的使用更为频繁,随之而来的便是大量数据的产生.这些人们生活中产生的形形色色的数据,如若加以利用,便能给人们的生活带来更多便捷.数据挖掘就此应运而生.它通过分析数据本身的结构和数据间的关联性,将无用的信息过滤,进而提炼出更具有价值的信息.聚类作为一种典型的数据挖掘方法,也是一种无监督学习方法,能够在没有先验知识的情况下将数据划分为若干簇,使得不同簇的数据间相似性尽可
交通标志的检测识别是智能驾驶系统的关键技术之一,交通标志中含有大量有用信息,能实时提示驾驶员做出正确反应,极大地减少交通事故的发生,但由于现实环境中天气、光线、遮挡等因素的影响,交通标志的检测识别存在一定的难度。传统的检测算法在特征提取方面因受人工设定因素的影响,无法满足交通标志在多类别下检测识别的准确性与实时性的要求。基于深度学习的检测算法具有自动提取特征、计算量小等优势,受到研究者的青睐。本文
随着新型网络技术的高速发展和用户业务需求的多样化,信息网络的规模不断扩大,传统网络的诸多问题日益凸显,网络功能虚拟化(Network Function Virtualization,NFV)作为一种新型技术为解决这些问题提供了一条途径。NFV技术将网络功能与专有硬件解耦,并通过在通用硬件设备上部署虚拟网络功能(Virtualized Network Function,VNF)以完成用户请求服务,增
目前推荐系统的一大研究热点是基于用户交互序列挖掘其中隐含的用户兴趣,在取得显著效果的同时,个性化推荐场景中也存在着数据稀疏性和冷启动问题。本课题基于上述几个问题进行了深入研究,具体如下:本课题利用图嵌入(Graph Embedding)技术来解决数据稀疏性和用户商品冷启动问题。在常规的图嵌入算法基础上,通过引入商品辅助信息,利用随机游走算法对商品的各类属性进行建模并获取对应的Embedding向量
水库防洪调度是一个复杂多目标优化问题,具有决策变量维度高、不同决策维度之间具有链式相关性的特点,因此进化多目标优化算法在求解该类问题时会因为搜索空间过大、决策变量相关性强而导致收敛缓慢,求解效率低下,甚至无法跳出局部最优解而导致求解失败。另一方面,进化多目标优化算法需要输入洪水完整过程线才能进行求解,因此多目标优化算法往往被用作离线求解方案,在线调度目前主要利用调度规则进行决策,但调度效果不如人意