【摘 要】
:
随着大数据时代的到来,用户对信息搜索的精确度和效率提出了更高要求,而传统的搜索引擎存在着一定的不足。聚类检索是对搜索引擎的返回结果聚类,然后将提取的标签和类簇呈现
论文部分内容阅读
随着大数据时代的到来,用户对信息搜索的精确度和效率提出了更高要求,而传统的搜索引擎存在着一定的不足。聚类检索是对搜索引擎的返回结果聚类,然后将提取的标签和类簇呈现给用户。用户根据标签就可以直观地获取检索结果的总体信息,能够迅速定位自己想要查找的内容,提高了用户的查询效率。Carrot2是一个开源的聚类搜索引擎系统,它采用的聚类算法在Web检索聚类方面有很强的代表性。文章选取Carrot2采用的K-means和Lingo算法进行了深入研究,并针对算法的不足及存在问题做了一定的改进。K-means是经典的划分聚类算法,其具有简单易懂、运行速度快的优点,然而也存在着一些不足,如K值的确定、初始聚类中心的选取、易受噪音点和孤立点的影响等多个方面。文章首先结合Web检索结果的特点确定了K值并选出初始聚类中心,然后用权重法代替平均法降低了噪声数据的影响。在经过多次试验后,又发现文档的合理归类问题。文章根据Web检索结果的排名特点,改进了权值计算公式,使文档归入排名靠前的类簇中。如“华为”的检索结果中,将文档“华为手机大全”放入“手机”和“大全”的类簇中都不为错,但归入“手机”的类簇中显然更加合适。Lingo算法是基于潜在语义索引的聚类算法。本文分析了Lingo算法中影响聚类效果的因素,通过引入位置信息和词长信息对其权值计算公式进行了改进,以提高聚类的准确率。实验表明,改进后的K-means算法解决了硬聚类算法的文档合理归类问题,而且具有良好的聚类效果,标签的可读性也较高。改进的Lingo算法的准确率也有了较大提高。
其他文献
为了检测运动背景下的运动目标,本文首先采用光流法对目标进行初始检测。这种方法只能得到目标的大致范围,无法得到目标的精确轮廓,而且无法正确检测同向同速前进的多目标。
随着计算机软件行业的飞速发展,越来越多的公司的竞争力依赖于为其提供决策信息的软件产品。软件产品的及时交付,对公司竞争力的极高,有着很大的作用。增量开发模型,作为软件开发
网络技术的快速发展促进了网络教育的不断创新,在网络教育中除了设置相应的学习内容之外,评价学习效果也至关重要。考试则是进行评价的最主要的手段,随着全国网络教育统考机
虚拟现实技术是一项新兴的综合性信息技术,它融合多种信息技术的最新发展成果,广泛的应用到了社会各个领域。中国是个海洋大国,海洋技术在国民经济中有着举足轻重的作用,其中
微粒群优化算法(Particle Swarm Optimization,PSO算法)源于对生物界鸟群群体运动行为的研究,通过群体间个体的合作与竞争来实现对优化问题的求解,是一种群智能优化算法,由于它的原
近年来,随着WWW的迅猛发展,XML成为数据交换事实上的标准,XML数据的应用也越来越广泛。例如:在金融领域,网络安全,制造领域,监控检测领域等。随着研究的加深,对于基于半结构
现代社会的信息化和网络化给人们的生活带来了方便快捷,但随之而来的信息安全隐患也日益明显,加密技术则是解决这一问题的有效方法。2001年11月26日,美国国家标准技术研究所(
胃脘痛(胃痛)是一种上腹近心窝处发生疼痛的疾患,是临床中的多发病。胃镜检查是诊断胃病最常见、最准确的方法,胃脘痛胃镜下表现呈多态性。因此,本文基于胃镜图像对胃脘痛特
作为传统加密方法的有效补充手段,数字水印技术被认为是解决数字化时代数字作品版权保护的一个重要手段,并成为信息安全领域的一个研究热点。数字水印技术是指在数字化的多媒
近年来,作为软件应用的一种重要方式,web服务发展迅速,许多web服务提供相同的功能。服务组合的含义就是把多个小粒度服务组合为一个大粒度服务,它是用户利用多种多样的web服