基于不平衡数据集的文本分类技术

来源 :河北大学 | 被引量 : 0次 | 上传用户:snowliya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,但是在实际应用中,经常会出现文本实例中一些类中的文本很多,而另一些类中文本较少的情况,而这些应用往往就是为了预测其中很少出现却很重要的文本,这就是所谓的文本分类不平衡问题。传统方法对少数类的识别率较低,如何有效的提高少数类的分类性能成为机器学习和模式识别领域亟待解决的问题。因此,本课题的研究具有重要的理论意义和良好的应用前景。本文针对提高不均衡数据集中的少数类文本的分类性能这一问题,从数据层面处理的角度对数据进行重抽样。使用随机抽样的方法以提高分类器在非平衡数据集上的泛化性能,即先对文本的训练集进行预处理,再用处理过的数据集训练分类器。提出一种改进的过抽样方法,在少数类中提取该类若干文本中的任意段落,再将提取出的段落添加至此类原始文本末尾,产生新的合成少数类样本。其主要思想是通过增加一些文本使各类中所含文本数量达到平衡。通过实验表明,该系统有效地提高了小类别文本分类的正确率。
其他文献
移动自组织网络是一种新型分布式无线网络,是由一组带有无线收发装置的移动终端组成的多跳临时性自治系统。它具有良好的移动性和组网的灵活性,因而成为目前网络研究的热点。移
信息物理融合系统(CPS)是计算过程和物理过程的集合。它实现了计算实体、交互实体与物理实体的集成化设计,可以保障系统高效、安全、实时的完成协作,具有非常广泛深远的应用
信息物理融合系统(Cyber-Physical System, CPS)是一种综合了计算、网络和物理环境的多维复杂系统。它实现了计算、通信和控制技术的有机融合与深度协作,能够完成大型复杂系
随着压缩感知理论的发展,稀疏表示逐渐成为了研究的热点,发展迅速,并已经在图像去噪等领域得到了广泛应用。信号稀疏表示,其实质是用稀疏系数简洁的表示信号,同时保持信号的
H.264/AVC是ITU-T和ISO/IEC联合推出的最新视频编码国际标准,它包含了许多先进的视频压缩编码算法,与以往的视频编码标准相比有了明显的进步。由于其良好的压缩效率和网络适
移动自组织网络是由一组带有无线收发装置的移动终端组成的临时性自治系统。网络中的结点具有路由器和主机两种功能。网络无需基础设施的支持,数据传输以多跳的方式进行。由于
在语音通信中,通信双方经常会受到周围环境噪声的强烈干扰,当环境噪声太大时,会严重干扰通话质量,甚至使通话无法进行。因此,对带噪信号进行增强处理,从中提取尽可能纯净的原
啤酒行业是我国酿酒工业中最年轻、发展最快的行业。而现在国内一些中小规模啤酒企业的生产状况滞后于啤酒的发展趋势,迫切需要通过自动化技术来提高产品的市场竞争能力。在
数字技术开创了电视的新纪元,电视的含义已经不仅仅是传统的音视频广播,而且是可以提供丰富信息和娱乐业务的双向交互式媒体。在此背景下,数字电视机项盒也从单纯用于实现数字信
词袋模型是一种向量空间模型,在此模型中,文本或图像被视作是无序的词汇集合,其中语法以及词汇之间的顺序关系都是被忽略的。通过选择或设计合适的相似性度量函数,词袋模型可