基于关系权重的SVM文本分类研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:binghemiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的日新月异,特别是互联网的快速发展,各种信息情报激增,人们可以通过各种手段快速获取大量的文本资料,但是如何对所获取的资料进行科学而有效地管理,如何运用计算机对文本进行自动分类是摆在人们面前的一个不可回避而又很有意义的课题。支持向量机作为一种强分类器,在文本分类中的应用获得了广泛的研究,成为现代信息处理的一个研究热点。本文在上述背景下,开展了基于关系权重的SVM文本分类的研究。 本文首先介绍了支持向量机的理论,并对其在多类问题中的几种组合策略进行了分析和比较。同时阐述了文本分类的一些相关知识,比如向量空间模型、文本分类评价指标等。 然后,深入分析了一种简单又常用的TF-IDF特征加权算法的特点,找出其分类精度不高的原因,在此基础上提出了一种基于关系权重的文本表示方法,通过引入关系权重,优化了文本表示,在文本向量中体现了不同特征项在不同类别中重要程度的差异,使得在此权重下不同类别的文本得到更准确的区分。同时,本文还采用六种不同的特征选择评估函数来计算关系权重,改进了文本向量的表示。 接着,本文构造了一个基于关系权重的SVM中文文本分类系统。该系统采用“一对多”的方法来进行SVM文本分类,并且在文本排重模块中,引入了一个聚类算法,通过设定一个适当的聚类半径,达到聚类排重的目的,降低了系统的时间复杂度。 最后,通过一个数码产品信息语料库进行了文本分类实验,实验结果表明:用大多数的特征选择评估函数来计算关系权重,对文本分类精度都有一定的优化和改进,其中以互信息效果最佳。实验表明基于关系权重的文本表示法,较之传统的TF-IDF文本表示法,能使文本分类精度得到提高。
其他文献
图像修复技术,作为数字图像处理领域内的重点研究内容之一,越来越受到机器视觉和计算机图形学领域研究者的关注。偏微分方程作为图像处理的主流方法之一,基于偏微分方程的图
作为一种处理秘密信息的密码技术,秘密共享能够分散集中存储秘密信息的风险,使得秘密信息的管理安全有效,具有抵抗入侵的性质。这样的特性使得秘密共享技术在涉及秘密信息存
随着3G牌照的下发,整个通讯产业都将重新格局,技术的进步将带来巨大的市场空间,尤其是传统的固网运营商,拥有3G牌照意味着拥有移动业务的经营权,将打破现有单一固网运营模式
由于企业信息化是一个渐进的过程,所以在企业中会出现信息孤岛的问题,它们同时构成了企业的异构数据库结构。如何解决这个问题,使得企业数据能够共享,是计算机领域研究的一个
随着经济全球化时代的到来,为应对企业之间日益激烈的竞争,一种新型的管理运作模式——供应链管理应运而生。经过多年的发展,供应链管理在很多领域取得了成功。复杂的网络结构和不断变化的外部环境降低了供应链应对突发事件的灵活性,尤其近年来随着供应链全球化,由于物流中断造成供应链遭受重大损失的事件在世界范围内时有发生,因此研究供应链物流中断的管理策略已成为热门并引起了广泛关注。本文基于多Agent的系统建模与
即时消息业务、短信业务都属于消息业务。消息业务具有价格低廉,准实时的特点,这使得它成为下一代网络中非常重要的一个业务类型。现有的即时消息系统主要应用于互联网领域,
图像识别与处理技术于20世纪70年代首先在西方发达国家应用于实际生产。它的出现对劳动生产率的提高具有重大意义。随后,图像识别与处理技术在世界范围内被深入研究,并广泛应
在CAD/CAM造型系统中,随着曲面造型技术的发展,人们也提出了许多相关的理论。由于在实际的曲面设计中,很多复杂曲面是无法通过简单绘制一个曲面来实现,而是需要绘制多个曲面共同组
随着IT产业的高速发展,基于计算机网络的视频监控系统成为计算机应用领域中重要的研究方向之一,它必将成为人们生产、生活中安全防范系统的重要组成部分。近年来,随着超大规
本文对人脸识别相关问题做了一系列深入的研究,其中包括人脸识别的基本概念、人脸识别研究的背景和意义、人脸识别的发展历史、人脸识别方法和应用系统等。本文提出了一种新的