基于知网语义相似度的中文文本分类研究

来源 :现代图书情报技术 | 被引量 : 0次 | 上传用户:aaaj199054
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】准确计算中文文本间的相似度,以提升文本分类的精度。【方法】利用TF-IDF算法计算特征词项权值,并借助知网分析词项间的语义关系,提出一种基于知网语义相似度的文本相似度加权算法,并对该算法进行中文文本分类实验。【结果】实验结果表明,该方法较传统的文本相似度计算方法在文本分类性能上有所提高。【局限】该算法的时间复杂度较高,文本分类的处理速度有待提高。【结论】该方法考虑特征项间的语义关系,能够有效提升中文文本的分类精度。
其他文献
对牛蒡子中牛蒡子苷和牛蒡子苷元的微波提取工艺进行了研究。采用微波法,利用单因素实验和正交实验对牛蒡子中牛蒡子苷和牛蒡子苷元的提取工艺进行了优化,并建立了牛蒡子中牛
<正>2010年4月7日,雷诺-日产联盟和戴姆勒公司在比利时布鲁塞尔宣布,双方将进行广泛的战略合作并相互交叉持股。这是继大众汽车和铃木汽车宣布互相参股结成战略联盟关系、吉
目前在电子商务领域,较为有效的商品推荐方法有两类,分别是基于相关性产品推荐和协同过滤推荐。然而,单独使用这两种推荐都会造成推荐耗时长,推荐质量差等问题。提出了三种有
屠宰废水不仅含有较高浓度的有机物,相比排放标准,氮的含量也较高。采用OCO工艺对屠宰废水进行生物除碳脱氮试验,在总水力停留时间约20h,厌氧区、缺氧区和好氧区水力停留时间
叶片精锻是叶片锻造的发展趋势 ,但由于叶片形状复杂 ,所用材料难变形 ,实际生产中不得不进行反复试制 ,造成很大浪费。计算机技术的飞速发展 ,使得采用三维有限元数值模拟技
近年来,我国互联网金融发展迅速,已渗透到社会的各个领域,创新出多种信贷模式。近期大学生群体成为互联网金融发展的目标,发展出"校园网贷"的业务模式。"校园网贷"在满足大学
<正> 林则徐是我国近代史上的伟大爱国主义者,他是在西方资本主义国家开始大举侵略我国的时候,首先举起反侵略旗帜的民族英雄。林则徐在广东查禁鸦片的斗争,与海关有着密切的
清水池在城市供水中的主要用途是储备和供出能被人们使用的水量,起到平衡水量的调节作用,其规模占城市最高日供水量的10%~20%[1],被广泛的应用在供水行业,静水厂在保证饮用水
<正> 屠宰废水是一种中、高浓度可生化性好的有机废水,其BOD5、CODcr的比值在0.5左右。对于这类容易降解的有机废水,生物处理工艺是最经济和有效的处理方法之一。该文着重从
本文运用文献资料和逻辑分析的方法对我国体育解说评论员角色定位与工作原则进行研究。研究结果:体育比赛转播节目不属于"新闻"而属于"娱乐",体育解说评论员角色属于"娱乐人"