代价敏感支持向量机快速算法研究

来源 :南京信息工程大学 | 被引量 : 3次 | 上传用户:funkfood
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机是由Vapnik等人提出的一种分类算法,因其具有良好的泛化性能,在机器学习和数据挖掘领域中被研究者广泛使用。传统分类算法中假设对于属于不同类型的样本的错误分类导致的误分代价是相同的。然而在很多实际应用中,误分类不同类别的样本将会产生不同的误分代价,例如疾病诊断、信用卡诈骗检测等场景即是如此。针对这一类的代价敏感问题,研究者提出了多种代价敏感算法,其中代价敏感支持向量机具有很好的性能及广泛的适应性。本文即以代价敏感支持向量机作为重点研究对象。文中取得的创新研究成果如下。(1)针对代价敏感问题,文中设计了一系列的对比实验对于多种代价敏感算法进行了比较。实验在十个代价敏感数据集和四个不平衡数据集上进行,并使用了总代价、AUC、F1指标和G均值等四种代价敏感问题中常用的评价指标对实验结果进行了评估。通过对比实验发现代价敏感支持向量机与其他代价敏感算法相比,具有更好的分类性能,并能够适应多种来自不同场景的数据集。(2)文中首先对代价敏感支持向量机提出了一种全量快速求解算法。代价敏感支持向量机与非代价敏感支持向量机类似,其求解问题本质上是二次规划问题,因而可以采用SMO算法进行求解。文中首先对于代价敏感支持向量机的SMO算法进行了理论推导和时间复杂度分析,并根据时间复杂度分析指出了SMO算法可以进一步加速的方向;随后提出了使用随机梯度下降方法对于SMO算法进行加速的算法框架;之后通过实验分析,验证了使用随机梯度下降对SMO进行加速的有效性,并印证了之前对于SMO算法时间复杂度的理论分析。(3)为了适应在线学习场景下的分类问题,文中提出了一种代价敏感支持向量机的多样本增量式快速求解算法。全量算法在训练数据集发生改变时需要对所有训练样本进行重新训练,从而得到新的模型,因而在数据集不断变化的在线学习场景下会浪费很多学习时间;而增量算法可以直接吸收新增样本并直接更新现有模型,从而避免了对已有数据的重新训练。文中首先对于代价敏感支持向量机的多样本增量式算法进行了理论推导;随后通过实验研究说明了增量式算法的有效性和高效性;此外,文中还通过实验进一步分析了增量式算法高效的内在原因。
其他文献
随着计算机的数据处理能力、存储能力日益革新以及移动电子设备的日趋成熟,数据正以海量级别产生,其中不仅包含通信实体自身信息同时还含有通信实体之间的交流信息,进而形成
为了实现企业的动态管理,企业采用高级计划排程技术,它是一种优化计划,可将时间、订单、库存等生产中真实存在的问题考虑进去。在企业生产中随时获取各种动态变化,来调整生产去迎合市场。帮助企业解决不能动态平衡实时物料需求和资源的问题,为离散制造业提供了有效支撑。而在APS中用数学模型预测零件生产数量为企业生产计划提供参照具有巨大的实用意义。但企业的生产预测模型却具有复杂性、多层次性、开放性、非静态性等特点
实时系统的正确性不仅取决于计算的逻辑结果,而且依赖于系统运行的时间。如何确保实时系统的正确性和可靠性是软件研究人员广泛关注的问题。UML (united modeling language)
虚拟手术(Virtual Surgery)是虚拟现实技术与现代医学结合而产生的一种新的应用领域。利用多种医学影像数据,在计算机中建立模拟手术环境,医生可借助医学图像分割、三维几何
语义Web的迅速发展引发了广泛的面向海量RDF数据的搜索需求。本文围绕语义Web上的实体搜索开展理论方法的研究,将提出的方法在搜索引擎Falcons上进行了实现,并开展了基于真实大
在计算机领域中,有一类问题具有这样的特点:结果元素的计算依赖于前面连续几个已计算完成的元素,而且每次可以并行计算的元素个数是存在着一定的相互关系。本文把具有以上计算
随着网络技术的飞速发展,大量通过网络传输的多媒体信息的真实性和可靠性越来越引起人们关注。图像认证是为了验证图像的真实性和完整性而发展起来的一种技术。目前,这项技术
在过去的几年中,随着互联网的高速发展,搜索引擎的作用与日俱增,越来越多的互联网用户开始选择搜索引擎作为其获得网络资源的首选工具。但是,搜索引擎的表现并不总是尽如人意
随着计算机网络技术和数据库技术的飞速发展,基于网络服务的数据信息管理系统在各行业和日常生活中得到了日益广泛应用,在煤矿产业上也有相关的应用。在煤矿发展向数字化转变
学位