支持向量分类机研究及DNA序列特征提取分类系统

来源 :中国农业大学 | 被引量 : 0次 | 上传用户:roger_wen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量分类机作为数据挖掘的新方法,除大型问题外,其求解方法已趋于成熟,且获得了广泛的应用;但对其输入数据的误差,以及数据各种变化对解以及决策函数值的影响的分析尚属空白。本文对此方面的理论和应用进行了研究和探讨,完成了如下五项工作。 (1)建立了支持向量分类机的数据扰动分析理论和方法。具体地针对支持向量分类机的各个模型都建立了数据扰动分析基本定理以及计算解和决策函数对数据参数的偏导数方法。在定理建立过程中,还得到在一个很弱假设条件下,支持向量分类机的解满足二阶充分条件、强二阶充分条件的重要性质。 (2)作为所建立的数据扰动分析方法的应用,可以利用求得的偏导数分析数据误差对解以及决策函数值的定量影响,用于支持向量分类机的稳定性分析;给定数据误差上限,计算决策函数在待测试样本处的微分,通过微分决策待测试样本的类别;在输入数据的各种变化情况下,可以给出其解的近似变化;此外可用于分析支持向量分类机模型中数据的不同分量在决策函数形成中的权重,据此给出了一种特征提取(在既有的向量型特征中减少特征)的方法。 (3)从DNA序列分类问题出发,提出两种DNA序列特征提取(DNA序列确定向量型特征)方法,而且给出其特征提取标准。此外针对DNA分类问题建立了加权支持向量分类机模型,并对该模型进行了研究。对决策函数阈值的求解给出详细推导,给出各种情况下阈值的求解公式,由求解过程得到决策函数阈值不唯一的必要条件。 (4)针对决策函数阈值不唯一而数据扰动分析方法又要求唯一性的情况,本文通过改变某一支持向量的系数,在不影响具体应用问题解决的前提下,提出使阈值唯一化的一个解决方法,同时给出系数变化后最优解的理论结果。 (5)将支持向量分类机应用于DNA序列分类问题,以VB和MATLAB为主要开发工具设计开发了其分类系统。实现了训练样本、核函数、惩罚系数、待测试样本等一系列支持向量分类机相关参数的动态输入。并可统计当前实验相关数据到报表,供用户预览、打印,以便于做实验分析。对于预测一批已知类别答案的DNA序列的类别,系统能够自动统计正确识别率,以观察参数变化对于算法执行结果的影响。
其他文献
随着企业对信息化管理要求程度的提高,以前简单的两层结构的应用系统已经不能满足用户在效率、性能和跨地域、跨平台方面的要求,必须有一种新的软件结构来满足实际的需要;同