基于深度学习的TAD域检测

来源 :云南大学 | 被引量 : 0次 | 上传用户:lsh123456lsh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
染色体Hi-C技术的提出与快速发展,让人们能精确的获取到染色体三维空间位置结构的信息,但是如何通过Hi-C数据来发现更多生物意义以及通过何种技术手段来解决更多生物信息难题,这是我们需要去关注和探索的生物信息技术问题。TAD是染色体上基因位点相互作用密集的区域,它包含了非常丰富的基因表达信息,并且边界处也蕴含了丰富的修饰蛋白信息以及转录因子等信息,但是TAD的识别和检测工作一直是一个极具有挑战性的难题。以往的TAD检测方法都是基于传统统计学,还有一些方法是通过聚类算法来检测TAD。不过它们的检测结果有待提高。最近几年来,深度学习在不同的领域得到了快速的发展与应用,比如NLP、CV、以及推荐领域等。在本文中,将计算机前沿算法与生物信息需求相结合,通过深度学习的目标检测算法与传统图像处理技术的融合,提出一种基于深度学习的TAD域检测方法,并且通过这种检测方法对不同生物,不同细胞系的TAD域进行检测,研究TAD域结构信息,也通过其生物意义来验证这种检测算法对其他生物体数据的泛化性能。本文的主要贡献有:1)探究符合生物数据特点的Hi-C数据预处理与可视化方法,提出Hi-C数据和图像算法紧密结合的方案,让研究者能够使用图像算法去探寻更多的Hi-C生物意义。2)提出基于深度学习的TAD域检测算法——Deep TAD,算法融合了传统图像处理技术以及基于深度学习的目标检测算法,使其应用到生物信息领域,让两者紧密结合,探究能很好解决生物信息课题的算法框架。3)根据TAD域边界处的Hi-C数据特点提出BC(boundary correction)算法,精确修正TAD域边界,使得目标检测算法和生物问题对于特征位置的精确要求相结合,让TAD检测结果更加精确。4)与国际同类方法对比,通过其他生物特征数据来辅助验证Deep TAD检测结果。通过Deep TAD检测结果来探寻更多的生物特征意义。
其他文献
2009年,钙钛矿材料被应用到了电池领域并取得了一定的光电转化效率后,致使众多研究者致力于钙钛矿太阳能电池的研究。钙钛矿太阳能电池经历了十多年的发展,其光电转化效率取得了质的飞跃,已经达到了25.2%。目前钙钛矿太阳电池应用最广的制备方法是旋涂法,但是旋涂法不利于钙钛矿薄膜大面积旋涂均匀,从而影响大面积电池的效率。而且钙钛矿太阳能电池光电转换效率也需要进一步继续提高。为了解决稳定性和效率存在的问题
众所周知,水是人类赖以生存的基本物质,是人类社会可持续发展的制约因素。随着我国经济的蓬勃发展,对水资源的需求也越来越大,但同时所面临的水体污染问题也越来越突出,水体酸碱度和重金属离子对水体的污染对人类和生物体的生命安全有着深远的影响。传统的检测方式因为其造价昂贵、操作复杂、体型较大等缺点无法满足对不同条件下水体的及时检测,研究简单、快捷检测水体酸碱度及重金属离子的方法已经成为了人们关注的焦点。近年
随着深度学习日益发展,人工智能领域迎来发展热潮。无论在计算机视觉,还是自然语言处理、语音处理等领域,深度学习都取得了突破性的进展。近年来,同时涉及计算机视觉和自然语言处理的多模态学习任务受到越来越多研究人员的关注,视觉问答正是一种涉及多模态任务的交叉研究领域。视觉问答任务旨在让机器根据图片内容对提出的问题自动地生成自然语言的回答,涉及多模态信息输入(即图片信息和问题信息)。视觉问答任务关键在于对计
疾病标志物是一种客观评价疾病发展状态的参数,对于这些物质的检测可以判断人体是否处于正常的生理状态。但是,它们常常以非常低的浓度与其它复杂成分混合存在于人体中,这就使得疾病标志物的检测变得非常困难。因此,建立灵敏度高,抗干扰能力强的检测方法对于疾病的诊断和治疗有着重要的意义。电化学传感器是一类将目标物的检测信号转换为电信号的装置,也是应用最广泛,研究最早的一种传感器。它具有灵敏度高、使用简单方便和响
从控制系统理论研究发展进程来看,非线性系统控制一直受到广大研究学者的青睐,并取得了丰硕的成果。由于在生产生活中出现的大多数控制系统都属于非线性系统,因此非线性系统性能稳定性控制的研究在控制领域和工程实践的应用中显得尤为重要。系统本身存在不确定因素和未知干扰较多,这明显使控制器的设计难度加大。基于此,为提升非线性系统的控制性能,本文研究了以下内容:首先,传统的有限时间稳定控制虽能确保系统在有限时间内
大数据时代,越来越多的应用场景不再使用单一来源的数据进行刻画,而是采用多源数据融合的方式进行研究分析,以提高研究结果的全面性和准确性。多源数据融合下的数据质量评估将为多个领域提供高质量的数据。传统数据质量评估普遍基于单源数据,导致多源数据融合下的质量评估缺乏一个统一的评估体系。目前,非结构化数据快速增长,蕴含着巨大价值,重要性得到人们普遍认可。而对于不同应用场景,非结构化数据分析技术各异且存在难点
随着机器人的大量应用,移动机器人的智能化也成为了人们关注的热点,如何实现机器人在未知环境中,自主避开障碍物,并规划出安全无碰撞且距离较短的路径,顺利到达目的地,成为实现移动机器人智能化需要解决的重要问题。虽然路径规划的研究也取得了一定的进展,但仍存在路径规划效率低、路径非最优、动态避障性能差等问题。在移动机器人的早期研究,很多标准都不统一,机器人代码复用率较低,增加了不必要的研发工作,模块化、标准
在检验标准模型和发现新物理现象的研究中,其初态涉及强子的所有计算都需要输入部分子分布函数。使用高精度的部分子分布函数才能使这些计算的结果更加的准确,这就促进了理论物理和实验的发展。因此,缩小部分子分布函数误差成为近年来高能物理面临的一个重要挑战。部分子分布函数是在量子色动力学的框架下,对各种硬散射过程实验数据进行整体分析而确定的。但这种方法的缺点是其拟合过程是比较复杂并且非常耗时。最近,CTEQ-
由于声信号测量具有非接触测量和对早期故障敏感的特点,在机械诊断领域受到了广泛的关注,同时时频分析—小波变换能分析非平稳信号的特征,故本文基于声阵列与小波变换开展了柴油机配气机构噪声的特征提取分析:通过阵列布置研究得到了适宜的声阵列间距、数目以及测量距离等数据,之后用声阵列传感器进行了数据的采集。然后将得到的阵列数据使用固定波束形成算法进行阵列信号的初步处理,用来提升声学信号信噪比低这一缺陷,并用信
锂离子电池在电动汽车领域日益广泛的应用对锂离子电池的能量密度和倍率性能提出了更高的要求,因此在现有工艺下如何提升锂离子电池的倍率性能是当下的热点话题。现有电极制造工艺对将电极做厚并实施辊压,以降低电极孔隙率,提高活性物质体积比,虽然可以提高电池的体积能量密度,然而电极在较高的放电倍率下的放电容量仍有较大损失。本文针对电极制备工艺对孔隙率分布,及其所导致的电极的倍率性能问题展开了系统研究,主要工作如