一种新的基于kNN和Rocchio的文本分类方法

被引量 : 0次 | 上传用户:kugsa74
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文本分类技术是一种对电子文档进行管理的有效方法,到现在为止,国内外学者提出了许多文本分类的方法,其中kNN和Rocchio是两种比较常见的方法.kNN的特点是有很好的分类效果,但是分类的效率比较差;而Rocchio的特点是有很好的分类效率,但是分类效果却不理想.首先对kNN和Rocchio的算法进行深入的研究和比较,然后提出了一种新的基于kNN和Rocchio的文本分类方法,命名为Rocchio-kNN方法.这种分类方法先用Rocchio为测试文档产生候选类别,然后再用kNN从候选类别中为测试文档选择出最终类别.这种方法既有kNN分类效果好的特点,又有接近Rocchio的分类效率.同时,还研究了用两种不同的方法来决定候选类别的数目.在中文文档库上的实验表明,新的文本分类方法的效果比单独的kNN和Rocchio的效果都要好,同时分类效率要比kNN好并且接近Rocchio.
其他文献
临近春节,有不少80后年轻人抱怨,回家过年“让我欢喜让我忧”。父母从早到晚都在絮絮叨叨,希望能有个“准媳妇”、“准女婿”带回家,迫于无奈,于是不少还单身的年轻人选择租异性朋
目的:探究对腔镜下甲状腺手术的患者进行优质护理的效果。方法:选取某院2016年1月-2016年12月的甲状腺肿瘤患者96例作为研究对象,用数字法分为治疗组与对照组,各48例。对照组采
视唱练耳属于基础乐科,主要的教学内容包括听觉、视唱、乐理、听写、四部分。在音乐专业中,视唱练耳是一门最基础的课程,也是一门必修课,可谓是音乐专业学生迈向音乐世界的必
商务经济学是近年新增的特设本科专业之一.目前,已有部分院校开始该专业的招生,但由于开设时间较短,在培养目标、课程设置等方面存在着许多需要探讨的问题.本文利用KSAO模型,
在讽刺文学作品中,有时人物的姓名往往不仅具有称名功能,而且还是塑造人物形象,揭示人物性格特征的一种语言手段。而通过对人物姓名的分析,我们不仅可以更加深刻地理解其人物
软玉产于台湾东部花莲县丰田地区,分为普通软玉,软玉猫眼和蜡光软玉三种,其中以软玉猫眼最为珍贵。台湾软玉的矿物成分主要由透闪石及少量阳起石组成,以交织或毛毡状交晶结构为主
【法新社巴黎10月15日电】根据联合国机构周二发布的报告,全球近7亿5岁以下的儿童中,有三分之一的儿童营养不良或超重,他们因此可能终生面临健康问题。联合国儿童基金会执行
保险人与保险中介人之间由于期望效用不一致、信息资源不充分等原因导致了信息不对称,对保险人造成负面影响的是代理人隐瞒行为型信息不对称。要解决保险人与保险中介人之间的
本文基于2006~2017年省级面板数据,利用空间计量模型探讨房价、金融发展以及二者的交互项对技术创新的影响,结果表明:房价上涨显著抑制了技术创新活动;金融发展促进了技术创
随着社会的不断发展,人们生活水平不断提高,相应的我国医疗改革的进程不断加快,为人们提供了更加优质的医疗服务。在医疗改革趋势的推动下,人们对于医疗服务行业的要求越来越