基于期望最大化的高通量测序数据集模体发现算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:haibolovemj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DNA模体发现就是从给定的DNA序列集合中,找到一组相互相似的序列片断,有助于定位转录因子结合位点等调控元件。转录因子可以与基因上游的特定位点相结合,来控制转录起始和转录速率,这些特定位点称为转录因子结合位点。因此,模体发现算法的研究对揭示转录调控机制有着重要的意义。近些年来,随着高通量测序技术的快速发展,ChIP-seq等技术可以获得全基因组水平上的转录因子结合位点数据,为模体发现提供了大量的实验数据。期望最大化算法被广泛应用于求解模体发现问题,在应对小的数据集时,这些算法通常可以高效且有效的识别出模体,但大数据集为这些算法带来了挑战:如果处理整个数据集,运行时间是不切实际的;如果只处理一个小的样本序列集,则有可能识别不出出现频次较低的模体。针对高通量测序数据集,本文开展了两个部分的工作来设计基于期望最大化的模体发现算法。第一部分工作利用划分样本集并分别求解的策略提出了MDS~3算法。首先将输入序列集划分为多个样本序列集,然后用EM算法求精每个样本序列集中的初始模体,最后将所有样本序列集上的结果进行合并。在对每个样本序列集生成初始模体时,设计了一种能够利用完整输入序列集的方法,有助于识别出现频次较低的模体。实验结果表明,MDS~3与现有的算法(MEME-ChIP,F-Motif,PairMotifChIP)的识别准确率相当,并具有更好的时间性能,尤其是对于大的数据集。特别地,当数据集中的模体出现频次较低时,MDS~3也具有更好的识别准确率。第二部分工作基于在线EM设计了一种在线模体发现算法OMD。从给定的输入序列集中不断地获取数据块;对于每个数据块,利用前一个数据块的信息对当前块进行求解;当输入序列集中的所有序列都求解完成后,对结果进行后处理。在对每个数据块进行求解时,将封闭求解(不利用历史数据进行求解的方法)与在线求解(利用历史数据块的求解结果作为先验信息)相结合,可以有效地避免过分依赖于新的数据块。通过实验表明:OMD识别准确率高于现有的在线模体发现算法(EXTREME);可以有效识别到出现频次较低的模体以及分布不均匀的模体。
其他文献
目前,中国西电与中广核工程有限公司签订防城港核电厂高压并联电抗器采购合同。根据合同要求,中国西电将向防城港核电站1期工程1号、2号机组提供2组500kV高压并联电抗器。
国务院决定从2008年春季学期起免除城市义务教育学杂费,要求各地建立健全城市义务教育经费保障机制,加强统筹规划,规范办学行为,并切实解决好农民工随迁子女就学问题。这是继免除
变频器运行中温度过高后,为了减少发热量,将使其输出频率降低,从而造成变频器不能正常工作。《雩世幂》2011年第1期《重视变频器的散热问题》一文已对此作了详细的介绍,下面笔者
选择并联电容器需要注意以下三个方面。1额定电压的选择所选电容器的额定电压应与实际使用电压相一致。实际使用电压有时会与电网标称电压相差很大。
我们约请了九江市市长江国镇同志为本刊撰写文章,同时转载江西省省长倪献策同志的一个讲话。这些言论,能帮助我们更好地了解九江,尤其是九江近期和远期的建设规划、目标、途
不同品质的油桃所散发的气味不同。使用电子鼻采集不同品质的油桃的气味特征参数,在电子鼻软件和MATLAB条件下分别利用偏最小二乘算法判断油桃的品质。结果表明:偏最小二乘法
【正】 在中国封建文明史中,宋代是一个重要的转折时期。汉唐时代的光辉在这里聚焦折射,发散出明清社会依稀可辨的晨曦朝晖。任何一个历史转折时期,都汇集着以往岁月的精粹遗
候鸟优化算法是近几年提出的一种新型元启发式算法,因为算法结构简单、鲁棒性高、收敛性好受到诸多学者的研究与关注。本文运用候鸟优化算法解决几类典型的开放车间调度问题,
【正】 在近年来海内外关于中国传统文化的讨论中,某些欧美日本学者师承韦伯的理论,否认中国传统文化中能够孕育出走向现代化的文化因素;某些海外华裔学者则宣扬"儒学第三期
针对数控机床主轴和伺服传动系统的热误差阻碍进一步提高机床定位精度的问题,对数控机床伺服进给系统的热变形作了深入研究。结果表明:螺母摩擦和轴承摩擦是滚珠丝杠伺服进给