元搜索引擎结果聚类优化的研究与实现

来源 :苏州大学 | 被引量 : 0次 | 上传用户:tomjack110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网络应用服务发展的今天,信息获取已成为网民使用Internet的主要目的之一。由于传统搜索引擎存在不足及自身的局限性,限制了人们对资源的获取。为提高用户查询信息的覆盖面和检索结果的准确性,一种建立在搜索引擎之上的元搜索引擎成为目前研究与开发的热点。但现存的大多数元搜索引擎以线性列表的方式为用户返回检索结果,其规模仍相当庞大,这使得用户可能用很多时间才能找到自己需要的结果。产生上述问题的主要原因是没有对检索结果进行分类处理和按照人们的查询习惯及检索经验进行再组织。因此,对检索结果进行聚类处理成为提高用户查找速度和快速定位所需信息的一个有效解决方案。本文通过对元搜索引擎技术和数据挖掘技术研究的基础上,结合关联规则与聚类分析设计并实现了一个带聚类处理的元搜索引擎系统CMES(The Clustering Meta Search Engine),详细介绍了该系统的具体实现。通过建立搜索引擎参数库,实现了检索请求向目的搜索引擎查询指令的转换,并实现了对目的搜索引擎返回的结果页面相关内容的自动提取;将结果记录中的标题和摘要进行分词处理后提取主要关键词集,用于建立关联词矩阵以及基于布尔函数和TFIDF函数表示结果特征向量,并对这两种表示方法在不同聚类算法下进行对比测试与分析;分别以k-means和FCM算法为基础提出基于关联词矩阵的k-means(k-means_AWM)和FCM(FCM_AWM)结果聚类优化方案,并对它们进行对比测试与分析,选择其中较好者用于检索结果聚类;给出了系统的应用实例并对系统的性能进行了分析;最后对本文所做的工作进行了总结,并提出系统需要进一步完善的地方及下一步研究工作的方向。
其他文献
汽车发动机是一个复杂的动力系统,其设备之间的复杂性导致汽车发动机故障诊断的复杂性和不确定性。由于这种不确定性的存在,使得难于建立一个定性的模型用于汽车发动机故障诊
本文以无线自组网中的入侵检测技术为研究重点,在总结当前该领域国内外的研究进展和无线自组网的安全现状的基础上,详细分析了入侵检测技术在无线自组网中遇到的挑战及现有技术
软件复用是提高软件生产效率和质量的现实可行的途径,其中基于构件的领域软件开发平台成为了研究的热点。零码软件生产平台是面向特定领域的基于构件的软件开发平台,提供了过
随着信息技术的发展,计算机已成为人们工作、学习和生活中不可缺少的部分,而计算机软件正是推动这一发展的主要动力。然而,盗版现象日益严重,引起了许多企业和学者的关注。要
随着互联网的普及和发展,网络已经与人们的生活息息相关。由于接入到互联网的人数激增,给传统的客户机/服务器模式的网络带来了很多新的挑战。近年来Peer-so-Peer(简称P2P)技
嵌入式系统SoC的器件尺寸越来越小、集成度越来越高、功能越来越复杂,传统的设计方法已经不能满足当前SoC设计的需求,因此出现了软硬件协同设计。软硬件划分是软硬件协同设计
随着数据仓库应用范围的不断扩大,集中式数据仓库环境已不能满足用户的需求,分布式数据仓库技术应运而生。分布式数据仓库中的数据大多来源于多个分散、异构及自治的底层业务
模式(字符串)匹配是计算机领域中的一个重要的研究方向,该问题是计算机科学中的基础问题之一,在学术界和工业界有着广泛的研究与应用。模式匹配算法被广泛应用到涉及文本处理
基于数字照片的计算机艺术处理在计算机艺术和数字娱乐等领域有广阔的应用前景,如何利用数字图像处理技术,结合艺术家不同艺术风格生成具有艺术效果的数码作品,不仅可以提供新的
数字水印至今已有十余年的历史,按水印所附载的媒体划分,其主要可分为三大类:图像水印、音频水印、视频水印。图像水印算法是音频与视频水印的基础,它可以方便的应用到音频与