基于SVM分类机的DNA序列分类方法

来源 :南昌大学 | 被引量 : 0次 | 上传用户:sally2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的顺利完成和各种后基因组计划的开始实施,出现了海量的生物分子数据,这使得科学家们需要分析大量DNA数据。如何充分利用这些数据,进而揭示这些数据的内涵,得到对人类有用的生物信息,是科学家们面临的一个严峻的挑战。DNA序列的处理方法一般是先寻找一种数学模型用以表示DNA,再借助其它工具对其进行分析。支持向量机(SVM)是在统计学习理论基础上发展起来的新算法,该算法是一种模式识别技术,相当于一种模式分类器。其训练算法本质上是一个凸二次规划的求解问题。它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并在文本分类、生物信息、语音识别、遥感图像分析、故障识别和预测、时间序列预测、信息安全等诸多领域有了成功的应用[2-41。本文采用SVM算法对DNA序列进行分类。为了提供算法所需要的输入数据格式,首先要将DNA序列用数学模型表示出来。SVM对输入数据的格式要求是表示成特征向量的形式。因此本文从DNA序列中单个碱基的含量和DNA序列的长度出发,结合滑动窗口方法计算出DNA序列中特征序列的出现频率,提取出DNA序列的特征,将DNA序列表示成特征向量的形式,然后根据SVM算法对已知类别标签的DNA序列训练样本做训练得到分类超平面,利用此超平面分类DNA序列的测试样本。分类结果表明这种提取特征的方法具有很好的分类精度。本文对SVM算法采用Matlab实现。典型二分类中的数据采用文献[9]中的数据。首先对已知类别的1-20个人工DNA序列进行SVM算法训练,利用参数寻优得到分类器。根据分类结果的精度反馈,进一步选择是否对数据归一化和降维等操作对结果进行优化,得到最佳的分类超平面。然后对另外的20个人工DNA序列和182个自然DNA序列进行分类预测。典型的SVM算法是一个二分类问题,DNA序列的多类分类实现是利用SVM的多类分类理论和算法,数据采用的是UCI数据库中的DNA序列数据,该序列集合中的数据分成了训练集和测试集,并且两个集合中的记录均有类别标签,便于分类测试。对于SVM多类算法的实现,同样用Matlab编程实现了DNA序列的多类分类。两部分的分类结果表明,SVM算法具有分类简单且分类结果精度较高的优点,同时结果也说明了本文对DNA序列所提取的特征向量是非常有效的,可以应用到实际的DNA序列分类预测中。
其他文献
计算机立体视觉研究的主要内容是如何利用计算机实现人眼的视觉功能,即利用摄像机获得的投影图像实现对现实世界三维场景的识别与理解。立体匹配是计算机立体视觉研究领域最
随着计算机硬件软件和互联网技术的飞速发展,网络上的各种信息急剧增长,已经成为人类有史以来信息资源数量最多、信息资源种类最全、信息资源规模最大的一个综合信息资源库。
网络服务质量(Quality of Service, QoS)属于一种网络安全机制,它具备疏通网络交通、保证网络传输效率、防止网络阻塞等优势。目前的网络技术,在提高网络传输速度、保证网络
在这个信息爆炸的的时代,以关系数据和XML形式存储、交换和发布的数字数据显著地增加,特别是在互联网上,这种呈指数的增长是前所未有的。当然,这两种形式的数据不仅可以让使用者
随着信息化时代的不断进步,人们越来越多的依赖网络,每天产生的电子信息数以万计,如何对这些信息进行有效的归类成了一大难题。数据挖掘技术的出现给人们指引了一条解决文本
时间序列预测一直是人们关注的热点问题,通过精确的预测结果,人们可以提前安排工作,预防不利情况发生,对于制定政策有着非常重要的意义。随着科学技术的不断进步,时间序列预测方法
虚拟植物是指以一定的植物形态结构模型和生理功能模型为基础,利用虚拟现实技术在计算机上重构植物的空间几何结构以及生长发育过程。虚拟植物研究具有很高的应用价值,不仅可
人类视觉系统之所以是目前世界上效果最好、精度最高、速度最快的图像处理系统,主要是由于人眼具有一系列特殊的视觉特性,其中与图像增强密切相关的特性包括色彩恒常性与亮度
TTCN-3是ETSI提出并维护的一种标准测试描述语言,利用它可以进行多种通讯领域上的各种系统测试。TTCN-3的应用已突破传统的网络协议测试领域,在一些大型的软件测试中得到了成
计算机技术的普及使得各行各业积累了大量的数据信息,人工处理这些大规模的数据已变得不现实。因此,数据挖掘技术应运而生了。在数据挖掘领域中聚类技术是其中的一个热点,聚