【摘 要】
:
随着生物信息学的发展,生命科学数据呈爆炸式增长。尤其是近几年来,随着测序技术的发展,人们得到的DNA序列数据在快速增加。DNA数据的特点决定结构特征相似的DNA序列有着相似的
论文部分内容阅读
随着生物信息学的发展,生命科学数据呈爆炸式增长。尤其是近几年来,随着测序技术的发展,人们得到的DNA序列数据在快速增加。DNA数据的特点决定结构特征相似的DNA序列有着相似的功能。数据挖掘是目前最有效的数据分析手段,用于发现大量数据所隐含的各种规律,已经被广泛用于社会的各个领域。因此在DNA序列分析中,数据挖掘技术有着非常广阔的前景,对于提高数据处理能力、产生有价值的生物学知识起着重要作用。通过对细菌DNA序列挖掘抽取序列特征进而进行分类对于医学和生物细菌学有着重大意义,可以促进免疫学发展和进一步了解细菌的遗传变异。
DNA序列数据的分析处理上已经成为生物信息学研究中的一个热点。但是在对细菌DNA序列进行数据挖掘的研究中,依旧存在着许多困难和挑战。目前已有的DNA序列模式挖掘方法应用在细菌DNA序列中的运行效率不理想,挖掘结果存在冗余性,用传统方法对细菌DNA序列进行分类的准确率和效率低下,这些都是值得关注和有待解决的问题。针对上述问题,本文的主要工作内容如下:
1.改进了一种细菌DNA序列的模式挖掘算法:在细菌DNA序列模式挖掘中,针对以往算法的运行效率问题和算法结果的冗余性问题,该算法通过引入带有模式划分特点的HashMap结构来优化算法的搜索空间和策略,并对算法结果进行过滤,提高了算法的效率并降低了结果中的冗余。
2.改进了一种细菌DNA序列的分类算法:通过挖掘细菌DNA序列的模式,抽取细菌DNA序列特征,引入去除独立随机背景的方法更准确的表达数据,并优化了算法流程,进行数据集划分,进一步提高分类效率和准确性。
3.设计开发了一套面向细菌DNA序列的数据挖掘系统:该系统能实现序列模式挖掘及序列分类,从而为进一步的DNA序列分析提供基础。
其他文献
关联规则挖掘是数据挖掘领域中的一个重要问题,它在商业领域的成功应用,使它成为数据挖掘中最成熟、最主要的研究内容之一.要发现关联规则,首先需要挖掘频繁项集,而Tire这种
在某些特定的应用环境中,由于位置偏远等原因,需要采用无线远程监控技术,本论文提出基于Windows CE的嵌入式技术和现有GPRS网络资源实现远程监控的方案。该方案是结合了嵌入
随着计算机网络和多媒体技术的发展,图像的应用日益广泛,基于内容的图像检索技术(Content-Based Image Retrieval,CBIR)应运而生,并成为图像领域研究的热点。而目前的CBIR技术还
随着计算机应用的普及以及软件产业的飞速发展,人们对于高质量软件的要求越来越高,软件测试作为提高软件质量的重要手段之一,是软件开发过程中必不可少的环节,而且通常会占用50%-7
当前,越来越多的应用场景中使用到了虚拟化技术。虚拟化技术中,应用负载被封装在虚拟机中,包括CPU,内存在内的物理资源被抽象为一个资源池。通过虚拟机的迁移技术,虚拟机可以资源
随着计算机技术的迅速发展,各类数据信息爆炸式的增长。计算机的计算和存储能力也在日新月异,如何从繁杂的数据中提取有用的信息,以帮助分析和决策,得到越来越多的重视。数据
转录因子结合位点预测问题,即在DNA序列中发现允许出现变异的motif的问题,不论对于分子生物学还是对于计算生物学,都是一项非常重要的研究。基于一致序列表达的模式发现算法,
在平显摄像过程中,常常由于被摄物体的振动或晃动,致使输出的图像序列不稳定,从而给平显图像的后续分析和研究带来困难。为此,本文设计并开发了平显图像振动检测系统,给平显
随着计算机应用的普及和深入,虚拟现实(Virtual Reality,简称VR)技术已被认为是21世纪可能使社会发生巨大变化的几大技术之一.它通过多项高新技术的更高层次的综合,能够创造了一个
随着计算机与计算机网络的大规模应用与普及,计算机系统中的敏感信息与涉密信息也面临着日益严重的安全威胁。计算机病毒,木马软件,间谍软件等形式的恶意代码在计算机网络中