基于图的标志SNP位点选择算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:w02114119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单核苷酸多态性(SingleNucleotidePolymorphism,SNP)是指在基因组水平上由单个核苷酸变异所引起的DNA序列的多态性。在各类单体型中,少部分SNP位点包含绝大部分的遗传变异信息,这些位点称为标志SNP位点(TagSNP或htSNP)。通过生物实验从基因型序列中获取确定的单体型序列,即单体分型(Haplotyping)可以得到比较精确、可靠的结果。然而,代价高昂,难以满足当前海量生物数据分析。因此,借助数学和计算机结合的计算分子生物学手段寻找TagSNP位点,是解决单体分型问题的一个有效途径。  本文对TagSNP位点选择问题进行了详细的阐述,并在充分研究和分析当前SNP位点选择算法的基础上,创新性地提出了基于图的TagSNP位点选择算法MDStagger,有效的提高了预测精确度,缩短了算法的运行时间。  具体地,本文的主要研究内容和创新点如下:  第一,描述了TagSNP位点的选择问题,包括解决该问题的数学模型和算法思想。同时,本文还分析了这些算法的优缺点及各自适用的范围。  第二,提出了基于图的TagSNP位点选择算法MDStagger。文中阐述了图模型的构建法则以及将SNP位点的信息转化为最大密度子图的思想。重点描述了通过最大密度子图来寻找TagSNP位点的思想。实验表明,该算法能够避免因为随机算法带来的局部最优问题和枚举法产生的高时间复杂度等问题,与当前主要的TagSNP位点选择算法相比较,具有较优性能。  第三,提出了一种改进的精确度预测方法,该方法基于多TagSNP位点联合预测非TagSNP位点。实验表明,多TagSNP位点联合预测比单一TagSNP位点预测,能够得到更高的精确度。该预测方法不仅提高了精确度,同时也为SNP位点评价准则的改进以及缺失位点的预测指明了一个新的方向。  第四,实现了TagSNP位点选择算法及其精确度预测系统。该系统使用了文中提出的基于图的选择算法。该系统的数据预处理模块也适用于其它TagSNP位点选择算法的前期数据处理。
其他文献
词汇复述研究旨在为词汇获取复述。词汇复述是上下文相关的,即对同一个词在不同上下文中应获取不同的复述词。本文定义了两个问题:(1)动态的词汇复述获取;(2)构建复述词典。
无线网格网是一种新型无线接入系统,支持多信道和多跳性。它融合了无线局域网(WLAN)和移动Ad Hoc二者的优势,成为解决Internet“最后一公里”问题的一种有效手段。无线网格网已
组播是除传统的单播和广播之外的第三种网络层传输方式,它允许将数据包发送到多个接收者,具有流量小、传递速度快、方便易用等特点。组播技术能够有效地解决单点发送、多点接收
目前,仿人机器人技术的研究已经逐渐成为一个热点。与传统的工业机器人相比,仿人机器人的结构更加类似于人类,在模仿人类的行为上,具有明显的优势。人类的身体结构,在大自然
网格是一种新型的分布式计算技术,能实现互联网上所有资源的互联互通,完成计算资源、存储资源、通信资源、软件资源、信息资源、知识资源、专家资源等的智能共享。网格已经广泛
随着计算机和网络技术的发展,目前的ADSL终端所提供的带宽已经不能满足人们的需求。华为根据终端用户需求,开发一个GPON光网络终端接入产品ONT550,能够满足家庭网络的需要。把光
北京邮电大学(北邮)在“十五”“211工程”建设期间,自主研发了一套具有北邮特色的数字图书馆集成服务系统。该系统包括虚拟参考咨询、信息门户、统一资源检索、数字资源管理
审计是商业银行风险防范的最后一道防线。随着我国进入WTO,商业银行在经营过程中面临的风险也越来越大。做好内部审计防范经营风险,成为商业银行工作的重中之重。审计管理系
在人类胚胎发育和疾病发生等过程中,miRNA扮演着重要的调控角色。而随着miRNA研究的深入,有关miRNA的生物学数据正迅速增多。由此,通过寻找生物学数据之间的联系,生物信息学
语音识别技术日趋成熟,但仍存在一系列难题亟待解决。其中较为突出的是:对数据的标注成本高、耗时长,想获得大量的标注数据十分困难,而另一方面,却很容易获得大量的未标注数