基于支持向量机的文本分类问题研究

来源 :大连海事大学 | 被引量 : 4次 | 上传用户:gaozheng929292
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本自动分类是基于内容的信息自动分类的核心技术,它是由计算机自动判别文本类别的过程。文本分类问题具有文本向量稀疏性大、维数高、特征之间具有较大的相关性的特点,因此,支持向量机非常适合于文本分类问题,在文本分类中具有很大的应用潜力。同时,文本分类也给支持向量机提出了许多富有挑战性的课题。例如,文本分类具有类别和样本数目多、噪音多等特点,支持向量机用于文本分类时存在训练和分类速度较慢等缺点。 本文从降低文本分类过程中文本向量数目的角度出发,来加快训练支持向量机分类的速度。采用密度聚类的方法提取原始样本中对分类起决定性作用的样本作为新的训练集进行分类器训练。这些起决定性作用的样本点就是分布在边界上的点,这些点在SVM理论里被称为支持向量。本文的目的就是尽可能的将这些点从原始文本向量集中提取出来。 如果将常见的密度聚类算法直接拿来使用,效果并不好,因为它们的时间复杂度太高,导致整体的分类训练过程效率比较低。本文采用一种改进的密度聚类算法,该算法融合了层次聚类算法CURE的特点,既保留密度聚类算法对边缘点比较敏感的特性,又降低了算法的时间复杂度。同时,本文通过大量的试验得出了针对文本分类样本的高维性特点,在对其进行密度聚类时初始参数的动态设置方法,从而在一定程度上解决了以前只能通过人工估算来确定参数值时效率低下,实际应用效果不佳的弊端。
其他文献
随着数字多媒体图书馆数量的飞速增长,对有效的检索、浏览和检测多媒体信息的需求也随之增加。其中,图像中的文本能够提供重要的语义信息,且相对语音信号易于提取,因而有效的检测
自从Leland等人在90年代初第一次明确的提出了网络流量中存在着自相似现象以来,研究人员发现不论网络的拓扑和业务如何,网络流量中都能检测到自相似特性。其中Hurst参数是评
目前,随着网络技术的发展以及数字移动设备的广泛使用,图像数据呈爆炸式的增长,单台机器处理图像的方法已经无法应对现实的需要;同时,当前用户搜索图像的习惯是在常用的搜索引擎文
随着经济全球化趋势的迅猛蔓延,制造业面临着巨大的挑战。为了适应这种形势,网络化制造生产模式应运而生,并且得到迅猛发展。但是,与之相适应的项目管理理论研究和实践相比之下却十分的滞后。传统单企业的项目管理模式和项目管理软件,不适应这种新的生产模式,需要一种适应网络化制造环境的项目管理。本课题就是针对上述情况,通过对网络化制造环境特点和传统项目管理理论的研究,提出一种新的项目管理模式——协同项目管理模式
集装箱堆场是物流系统中的重要环节,随着港口集装箱吞吐量的飞速增长,由于前方堆场堆存能力的局限性,后方堆场的管理和建设越来越受到人们的关注,也给后方堆场企业的发展带来了前
企业信息门户是实现企业内部和企业间信息管理、信息分析及信息发布的企业信息与知识共享平台。它通过统一登陆点的单点登录技术,将企业已有的应用系统在应用层得以整合,避免
在铁路信号计算机联锁系统中,联锁软件是实现联锁运算的核心部分。联锁软件的失效将有可能导致列车相撞或颠覆等重大事故的出现。因此,提高联锁软件的质量,提升其可靠性对开
随着Internet网络的迅速发展,Internet应用已遍及工业、军事、医疗、教育等领域,给人们的生活带来了极大的便利。与此同时,网络用户接入数量急剧膨胀,而网络带宽等硬件设施的升级
随着汽车电子技术的不断发展,用户需求驱使汽车功能不断强大,汽车上电子控制单元种类的繁多导致相应的系统结构越来越复杂,汽车上线束越来越多。为了减少汽车内线束的数量,简
本文对建筑火灾人群疏散模型进行了研究。文章在了解国内外在群体动画、火灾人群紧急疏散模型研究现状的基础上,重新认识火灾中影响人群疏散的原因,重点是考虑了火灾中人群个体