基于类别均衡的文本分类算法研究

被引量 : 0次 | 上传用户:ljyxq13571302523
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本自动分类是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。向量空间模型(VSM)是进行大规模文本处理的最通用模型。为了提高分类性能,本文研究和改进了基于向量空间模型的特征词权重计算方法,同时提出了一种基于类别均衡的k近邻(kNN)分类算法。词语权重计算方法的改进是在TF×IDF算法的基础上,综合考虑了特征词在分类中的重要程度和文本中不同位置的特征词反映文本内容的能力,并引入了特征词的信息量和位置信息概念。弥补了以前的算法虽然考虑了特征词在文本集合中的词频和分布情况,但是并没有考虑分布的比例情况,以及忽略了特征词的不同位置对文本的重要性不同的缺陷。基于类别均衡的kNN分类算法是对原始训练集以类为单位进行重新组合,使得小于特定阈值的相似的小类别合并为大类别,并作为大类别的子类;同时将大于特定阈值的大类别通过聚类算法划分为若干小类别,使这些小类别成为该大类别的子类。以每个子类的中心作为类别的代表点,并根据文本到不同类别代表点的余弦距离之和进行分类决策。重组后的训练集类别分布更加均衡。在分布均衡的类别上进行训练和分类,进一步解决了文本集的多峰分布、边界重叠以及忽视小类别的问题。
其他文献
<正>新课标中指出:"美术是人类文化的一个重要组成部分,与社会生活的方方面面有着千丝万缕的联系,因此美术绝不仅仅是一种单纯的技能技巧的训练,而应视为一种文化学习。"怎样
《唐律疏议》是我国古代典型的封建法典,它在中国的法制史上具有承前启后的重要地位。该文以法律诠释学为视角,分析这部法典的法律诠释学思想。在诠释学中,一个完整的诠释过
由于变电站设备在电力系统中的重要地位,必须保证运行的高可靠性,因此对其进行状态监测与故障诊断,为电力部门进行检修体制改革打下良好的基础,提高其运行的安全可靠水平,是
针对目前pH敏感性水凝胶制备和应用方面存在的对外界刺激响应慢和力学性能差等问题,本论文进行了pH敏感性水凝胶的研究开发,以制备高敏感性、力学性能优良的pH敏感性水凝胶为
<正>全球经济的目光正转向巴西,作为金砖四国之一的巴西,现如今与巴西足球一样瞩目。巴西具有多元化的经济、良好的经济政治秩序和完整的工业体系,在众多中国出口企业看来,这
中小商业银行作为改革开放的重要产物,为我国银行业带来了新的思想、新的理念和新的手段,不仅推动了整个银行业向公开竞争的经营模式转变,而且提高了我国银行业整体的服务水
日本于1952年旧金山和约生效前虽因失去国家独立和主权而致外交空间狭小,但仍对东亚国际政治局面积极应对,即一面在美国的安排下,参与排斥中华人民共和国于和会之外,并推进与
随着计算机技术和计算机网络的发展,网络交流作为一种人际交流手段以它的即时性和方便性越来越受到广大用户的欢迎。通过计算机网络进行的人际交流随着计算机的普及和网络的发
目的观察艾迪注射液对血浆D-二聚体的干预作用,探讨其对结直肠癌患者高凝状态的影响。方法筛选30例D-二聚体异常升高的具有复发高危因素Dukes’B期以上的结直肠癌患者,随机分
<正>肺癌脑转移发生率在50%以上,多因神经系统症状而就诊[1]。肺癌脑转移最常见症状为头痛,其次为定位功能失常、精神异常及颅内压升高,另有5%~10%的患者有急性脑卒中表现。