【摘 要】
:
随着互联网技术的不断发展,网络上出现了大量的评论文本数据。在实际收集评论数据集时常发现不同类别的文本数目相差较大,即数据存在分布的不平衡。如果直接采用传统的分类器
论文部分内容阅读
随着互联网技术的不断发展,网络上出现了大量的评论文本数据。在实际收集评论数据集时常发现不同类别的文本数目相差较大,即数据存在分布的不平衡。如果直接采用传统的分类器对这类文本进行分类,其分类结果不理想,特别是对于非常重要的少数类样本的识别尤为不理想。为此,本文从研究非平衡文本数据挖掘的意义出发,列举并分析了国内外的研究现状,详细介绍了文本预处理等相关技术和基于重采样的算法原理,并在此基础上设计了一个非平衡文本分类系统,具体内容如下:(1)文本预处理技术介绍针对文本分类而言,文本数据不能直接用于后续分类器的构建,需要对文本进行一系列预处理,本文介绍了中文和英文数据集的预处理方法,如中文分词、去停用词和文本数据向量化等方法。(2)几种基于重采样的非平衡数据分类方法的比较本文介绍并实现了六种典型的基于重采样技术的非平衡分类算法,梳理和分析了各个方法的优缺点及适用的环境,之后在文本预处理的基础上进行了对比实验,给出了具体的实验流程及实验结果分析。(3)非平衡文本分类系统设计与实现本文以Java语言为主,Matlab与Python的混合编程为辅实现算法搭建了一个非平衡文本分类系统,主要功能包括以下几个组成部分:选择文本输入路径、中文文本分词、特征选择、文本向量化表示、交叉验证、重采样方法选择、显示评价指标、数据结果的路径设置等部分。本文给出了该系统的需求分析与系统结构,同时为兼顾实际应用与研究实验,将文本预处理和非平衡方法设计成为可选模块。用户可依据非平衡文本数据分类的需求选择功能。非平衡文本分类系统的开发既为研究者研究非平衡文本分类提供了一个辅助系统,也可为相关领域的应用提供技术支撑,具有一定的应用价值。
其他文献
战略是企业在管理过程中必不可少的重要环节,它决定着一个企业的发展方向。企业战略是设立远景目标,并对实现目标的轨迹进行总体性、指导性的谋划,企业战略是指企业根据环境
伴随着城市化进程的不断加快,城市的规模也在随之不断扩大,那么人群的大规模聚集逐渐成为当代社会发展的一种普遍现象。人群聚集地一旦发生紧急情况,再加上断电、粉尘等意外
林子宗群火山岩是冈底斯岩浆岩岩带的重要组成部分,是印度-欧亚板块碰撞过程中岩浆作用的产物,记录了特提斯洋俯冲结束到印度-欧亚板块碰撞的信息。研究区位于冈底斯西段的措
开源软件在这些年快速发展,常见的开源软件库通常有数十万开源软件项目。软件工程师通常要搜索开源软件库以获得解决方案或者可重用的部件。为了便于开源软件的检索,目前多数
作为高容量的层状正极材料,Li Ni0.8Co0.1Mn0.1O2(NCM811)已成为高能量锂离子电池的候选材料之一。相比于颗粒团聚型多晶材料因各向异性的体积变化引发的结构衰减问题,将NCM811
本研究以紫金山铜尾矿浮选得到的明矾石为研究对象,以课题组前期对明矾石无焙烧中压酸浸研究为基础,在确保明矾石有价成分高效提取的情况下,降低浸出压力,进一步优化浸出工艺
歌剧是二十世纪初传入我国的一种西洋戏剧,从开始的简单模仿到借鉴西洋歌剧的创作手法,结合了中国传统的戏曲因子和民歌元素,经过了几代人的不懈努力,在不断地学习、变革和创新中经历了近百年的时间,创作出了一大批不同时期的蕴含丰富中国音乐元素,具有浓郁特色的中国民族歌剧。2018年文化部“中国民族歌剧传承发展工程”中的一个重要实施项目——大型民族歌剧《沂蒙山》,是由山东省委宣传部直接领导,山东歌舞剧院创作并
过渡金属催化烯烃双官能团化反应在近年来得到了广泛关注,代表反应包括胺氧化、双氧化、双胺化、烷氧芳基化、胺芳基化等,其中,钯催化的氧化条件下的双官能团化更是研究前沿
在信息技术飞速发展的时代,信息的形式和数量与日俱增,为了高效地获取人们需要的信息,研究者在计算机视觉和机器学习上进行了大量的工作,其中,对分类和聚类技术的研究早已引
可靠性分析是工程设计中常用的分析方法,它源于设计参数的不确定性和知识的不完备性。在岩土工程中,由于设计参数具有随机性,使得可靠性分析理论和方法被广泛应用,可靠性分析已成为岩土工程研究的热点问题之一。黄土由于特殊的结构和成因,使其物理力学性质指标具有不确定性,加之地震发生的随机性,使得表述黄土斜坡地震稳定性的安全系数具有不确定性。因此,利用可靠性分析的理论和方法给出黄土斜坡在地震作用下的可靠指标并估