一种基于同义词发现的文本扩充算法

来源 :重庆理工大学学报:自然科学版 | 被引量 : 0次 | 上传用户:gsjsk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类算法在进行分类时存在待分类文本中关键词稀疏、难以充分表征文本特性的问题,导致文本分类的准确率不高。提出一种基于同义词发现的文本扩充算法,利用知网中义原间的层次架构,获取待分类文本中关键词的位置信息,并发现关键词路径中位于不同层次的同义词,利用知网义原之间层次性和密度差异为关键词和不同层次的同义词之间赋予相应的相关系数。将提出的文本扩充算法运用于文本分类,以20Newsgroups和Reuters21578Top10为测试数据集进行实验。实验结果表明:改进算法的文本分类准确率和F1值有了较大提高。
其他文献
近日,中国人民大学人文社会科学学术成果评价研究中心和中国人民大学书报资料中心联合研制的《复印报刊资料重要转载来源期刊(2017年版)》正式发布根据2014—2016年度复印报刊
热风是高炉最廉价、利用率最高的能源。根据经验,热风温度每提高100℃,焦比降低20kg/tFe,生铁产量提高4%。2004年,500~999m^3全国高炉平均风温为1069℃,许多处于炉役后期的高炉,其风温
宣汉县纪委、监察局为解决新形势下纪检监察工作任务重与人手少的矛盾,先后聘请了特邀监察员、纠风监督员、廉政信息员"三员",共计50余人。制定了"三员"学习、生活、廉政等一
目的:构建军队医院合理医疗用药政策执行效果评估指标体系。方法:运用文献资料分析及专家咨询、改良德尔菲法、层次分析等方法构建评估指标体系及权重,经实验性评估验证指标体系
通过对冷轧带钢平整时产生横折印缺陷原因的分析,介绍了带V型槽和凸度的张力辊的研制和使用效果,为消除横折印缺陷提供了一个有效方法.
随着中国经济的崛起,作为传统文化的精华,中国元素在设计领域广泛应用,并出现标签化的趋向。当代设计运用中国元素应结合当代生活,融合时代的审美观念和价值取向。
利率是调节经济发展的杠杆和手段,是可以根据经济形势发展的需要而随时做出调整的。一般说来,经济出现过热或通货膨胀率较高时,利率就会调高;经济出现平稳发展或通货膨胀率较
自从发现炭黑能够补强橡胶以来炭黑就成为橡胶工业不可缺少的原材料.绿色轮胎的出现给炭黑带来了冲击,也带来了创新的思路和契机.与此同时,近年来研发的两种新工艺炭黑已经由
采用有机碳测定仪和紫外分光光度计,分别研究了聚羧酸减水剂、萘系减水剂和木质素磺酸钠在水泥、高岭土和蒙脱石颗粒表面的吸附特性,并对掺高岭土和蒙脱石的水泥净浆的流动度
它不但是美国最有权力的组织,而且也是独立于美国国会的组织。FEMA(美国联邦危机管理局)是一个鲜为人知的政府组织,它不由选举产生,从来不在公共场合露面,它拥有数十亿美元的