【摘 要】
:
计算机技术的发展加快了信息的传播速度,也降低了数据挖掘的成本。将计算机技术与生物知识相结合,并使用计算方法去挖掘潜在的生物知识已经成为未来的研究趋势。近年来,随着疾病和基因相关数据的积累,人们逐渐发现通过已有的疾病基因关联关系来预测致病基因通常能够取得很好的效果。传统方法基于疾病基因的模块性假说,即相似或相同疾病的致病基因在蛋白质相互作用网络上也相互靠近。当前,致病基因的预测主要采用的是基于异构网
论文部分内容阅读
计算机技术的发展加快了信息的传播速度,也降低了数据挖掘的成本。将计算机技术与生物知识相结合,并使用计算方法去挖掘潜在的生物知识已经成为未来的研究趋势。近年来,随着疾病和基因相关数据的积累,人们逐渐发现通过已有的疾病基因关联关系来预测致病基因通常能够取得很好的效果。传统方法基于疾病基因的模块性假说,即相似或相同疾病的致病基因在蛋白质相互作用网络上也相互靠近。当前,致病基因的预测主要采用的是基于异构网络的方法。研究表明异构网络包含更多的信息,通常拥有更好的预测效果。本文构建了包含了疾病、基因、表型和基因本体四种节点类型的异构网络,该网络由疾病-表型、疾病-基因和基因-基因本体三个二部网络与蛋白质相互作用网络组成。本文的致病基因预测算法采用的是基于机器学习的链路预测算法。算法主要分为三个步骤:训练样本提取、特征提取、模型的训练与预测。在特征提取环节,除了使用网络表征方法提取节点的表示向量之外,还提取了网络的拓扑特征,并将表示向量和拓扑特征进行融合。实验结果显示,本文提出的基于多信息融合的预测算法取得了最好的预测效果,其接受者操作特征曲线下的面积(AUC)和准确率分别为0.9837和93.49%。此外,各个表征方法与结构特征融合也取得了较大的性能提升。在训练样本提取环节,本文分别根据网络结构和数据集的分布提出了三个改进方向。首先,致病基因预测问题中的正例是网络中已存在的链接。每个链接对网络的重要程度不同,随机提取可能会破坏网络的结构,尤其是网络的连通性。基于此,本文提出了基于网络连通性的正例提取算法。该算法相比于随机提取算法取得了更好的预测效果,其AUC值和准确率分别为0.9849和93.94%。其次,网络中的链接是有限的,提取多大比例的链接作为训练样本是致病基因预测必须要考虑的问题。对此,本文设置了一个可以控制正例采样比例的参数,实验分析得到最佳的正例采样比例为0.1,此时模型取得最优的预测效果,其AUC值和准确率分别为0.9867和94.35%。最后设置了一个负正样本比例参数来控制样本的分布,并进行了多组实验。当负正样本比例为3时,模型取得最优结果,其AUC值和准确率分别为0.9887和94.55%,显著高于其他模型。
其他文献
钙钛矿是一种新型半导体材料,具备载流子扩散距离长、带隙可控、载流子寿命长等优点。近年来钙钛矿不仅于太阳能电池的研究中扮演重要角色,也被广泛应用于微型激光器、光电探测器的研究中,具有很好的应用前景。然而目前关于将各类钙钛矿光电器件进行集成的相关研究却很少,其中一个重要原因在于材料制备方面的瓶颈。尽管理论上钙钛矿单晶相较于多晶薄膜具有更好的光电性能,目前大多数基于钙钛矿的器件依然依赖于多晶薄膜,现实与
随着军事、雷达、卫星等应用需求的不断提升,关于高精度浮点超越函数的实现不断被提出。其中,反正余弦函数运算单元在数据分析、气象计算、信号处理等领域有着非常重要的应用,因此高性能浮点反正余弦函数运算单元的设计与实现对现代工程应用具有重大意义。目前,反正余弦函数运算单元的实现方法主要包含查找表、泰勒多项式逼近等方法,这些方法虽在低位宽运算中保证了一定的运算性能,但当位宽不断增加,其资源开销也随之急剧增加
二十世纪八十年代之前,多数集成电路企业采用IDM(integrated design and manufacture)商业模式。这种模式下,IDM厂商负责集成电路(IC)设计、制造、封装测试等各个环节,甚至也会延伸到下游电子终端。然而随着芯片微缩以及加工技术和设备成本的飞涨,开发先进制程技术的成本也越来越高,许多IDM厂商无法通过投资生产线实现收益。随着产业分工的进一步细化,无晶圆厂和无生产线设计
面对云计算等互联网应用驱动之下的互联网流量持续增长,相干光通信系统使用超高波特率、高阶调制格式信号,有效提升频谱效率,进而支撑海量信息传送需求。与此同时,现有系统下光信号对发射机硬件损伤更加敏感,迫切需要开展硬件损伤监测与分析技术的研究。本论文围绕光通信系统中的信号同相/正交(In phase/quadrature,IQ)分量不平衡和时钟偏移等主要硬件损伤,重点分析研究可适用多损伤共存下的宽范围联
随着科技的进步和经济的飞速发展,研制开发新型实用高性能的传感器,在各行各业都具有重要价值。在各种光学传感器中,基于模间干涉的锥形传感器成为研究中一大热门方向。锥形光纤将传感器的结构尺寸缩减到毫米乃至微米量级,具备成熟的理论基础和制备技术,并且具有高灵敏,高可靠性等优点。本文以此为出发点,从理论设计和实验制备以及性能检测等三方面出发,基于模间干涉原理,提出了基于锥形光纤的两种传感器结构,分别为芯径较
近年来,2μm波段光纤通信越来越受到关注。在该波段,掺铥光纤放大器具有更宽的增益谱,光子带隙光纤(Photonic Bandgap Fibers,PBF)具有更低的理论衰减值(0.1 d B/km),这些优势有助于解决目前光纤通信面临的数据流量大,而光谱资源有限的问题。密集波分复用(Dense Wavelength Division Multiplexing,DWDM)技术在光纤通信中是解决大容量
随着5G、大数据、物联网以及虚拟现实等新型技术和应用发展,光通信系统容量和动态业务带宽有了更高的要求。上世纪香农提出连续的高斯分布信源可以实现加性高斯白噪声信道的最大通信容量,概率整形技术由此孕育而生。尽管目前概率整形编码方案已经日渐成熟,但是围绕概率整形光系统的信号处理研究依然处于起步阶段,现有围绕标准正交幅度调制的信号处理方案,在概率整形系统下存在性能恶化与失效问题。为此,本论文围绕概率整形光
当今社会,随着第二语言学习特别是英语学习越来越收到广泛关注,人们对计算机辅助语言学习系统的要求越来越高。错误读音检测与诊断是语言学习的重要组成部分,也是计算机辅助语言学习系统的关键技术。相比传统的老师纠错,计算机辅助的错误读音检测与诊断具有成本低和灵活性高等特点,受到越来越多人的青睐。计算机辅助的错误读音检测与诊断任务可以看作一项特殊的音素序列标注任务,即当识别的音素和标准音素(从呈现给用户的文本
近年来,随着计算机硬件设备的更新换代和深度学习技术的不断发展,图像和视频的篡改变得越来越容易,尤其是人脸这种具有身份标志性的特征,如果被篡改,会带来严重的社会问题。因此,有效的人脸篡改检测算法尤为重要。近几年也有不少研究人员对人脸篡改领域做了相关的研究,但是由于目前的人脸篡改方法越来越多,而且篡改产生的人脸越来越逼真,导致以前的方法基本失效。针对以上问题,本文以神经网络为基础,从图像增广和噪声滤波