基于改进TFIDF的混合模型文本分类方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:xuebin0523
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类技术是从庞大而杂乱的文本中准确而快速的识别所需信息的关键技术。在文本分类的过程中,文本被送入分类器之前首先要对文本进行预处理工作,包括文本分词、去停用词、特征选择和特征提取等。特征选择和特征提取可以排除文本中所含的噪音数据,降低文本特征空间的维度。这一过程十分重要,因为其可以直接影响到分类精度。本文针对特征选择和特征提取进行研究,提出了一种基于向量空间模型与主题模型的混合模型。能使得文本的特征向量尽可能多的携带类别信息的同时又使其维度降低。本文的工作如下:第一,改进TFIDF算法。引入变异系数,提出了一种改进方法TFIDFCV。该方法用变异系数作为权重因子,综合考虑特征词在类间和类内的信息分布,调整TFIDF对特征项的权重计算,可以避免传统的TFIDF方法没有考虑特征项类间和类内的分布情况的缺点,能够更有效的从文本中选择特征。第二,提出混合模型。通过LDA主题模型对文本进行特征提取,可以降低特征空间的维度。分别对名词、动词以及其他词建模,可以有效利用文本中的词性信息,构建一种结合词性的LDA模型,即PST-LDA。以PST-LDA模型和TFIDFCV方法共同处理文本集,结合词频、词性和主题等信息,以期望得到信息承载量更大的特征。第三,实验验证。设计了两组实验,分析验证改进的效果。第一组,TFIDF与TFIDFCV方法在支持向量机下文本分类的效果对比。实验结果表明TFIDFCV方法较TFIDF方法的宏F1值提高了1.21%。第二组,LDA、PST-LDA、TFIDFCV与PST-LDA结合的文本分类效果对比,实验结果表明TFIDFCV与PST-LDA结合的方法宏F1值比PST-LDA提高了1.1%,比LDA提高了0.92%,并且在建模时间上的开销不到LDA的一半。
其他文献
近年来,随着计算机视觉的发展,图像信息在人们的工作和生活中扮演着越来越重要的角色。而从图像中提取感兴趣的区域的图像分割技术对于图像信息的理解与分析又起着至关重要的
近年来随着科技的不断进步,移动计算和无线通信技术得到了迅速发展。与此同时,人们对移动通信技术的要求也越来越高。目前,有两种不同移动网络的配置方式:基于基础设施(例如基
时间序列数据分布广泛,长期以来,不同领域时间序列数据大量积累,对时间序列的数据挖掘逐渐得到关注。本文以公共的股票数据组成的时间序列数据作为研究对象,将时间序列数据的
支持向量机(Support Vector Machine, S VM)是建立在统计学理论基础上的一种机器学习方法,其拥有坚实的理论基础。它在解决小样本、高纬度、非线性模式识别学习问题中有较多
嵌入式技术的发展使嵌入式GIS成为信息技术领域的研究热点,特别是与GPS技术结合后,极大方便了人们的生产和生活。本系统将嵌入式GIS技术应用于国土资源调查、林业资源管理,特
Ad hoc网络是由多个结点组成的临时性的移动自组织网络(MANET:MobileAd hoc NETworks)。传统Ad hoc网络广泛应用于军事战场、紧急事件的拯救行动、临时会议等场景中。随着Ad h
嵌入式系统是促进信息化与工业化融合的核心技术,是信息技术中发展最快、应用最广的技术。嵌入式系统技术的发展,正在成为中国嵌入式系统产业发展和带动IT产业发展的新增长点。
建立Deep Web集成系统是目前的研究热点,但由于不同网站对同一实体的数据描述在表现形式上存在着差别,导致冗余信息多,给用户的查询带来不便。实体识别是Deep Web集成系统中
随着计算机软件在各个领域的广泛应用,计算机软件变得愈加的庞大与复杂,软件缺陷预测作为软件开发生命周期中的重要环节,可以及时的发现和纠正开发过程中的缺陷,避免软件后期
随着Internet高速发展与大面积普及,网络攻击也在不断出现。随着攻击技术的不断进步与更新,攻击工具和手法的日趋复杂,攻击工具的使用却越来越简单,现在的异常检测系统面临着