Web检索中的查询扩展及结果聚类技术研究

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户:lijingbo1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着互联网技术的发展,Web信息量飞速增长,如何从大量信息中迅速有效地检索出所需的信息成为了人们关注的问题,搜索引擎也因此走入了人们的生活。如今,搜索引擎的功能日益强大,抓取的信息也日益增多,但用户却似乎越来越难检索到自己所需要的信息。归结原因主要有两点,一是由于关键词所能够反映的信息量是有限的,用户无法通过简单的几个查询词准确的表达自己的查询意图。二是由于目前典型的搜索引擎返回的是一个处理后的结果列表,内容非常杂乱和庞大,由于缺少反映搜索结果内部关联的信息,用户很难从迅速识别出自己需要的信息。针对以上两点主要问题,本文主要研究了用户查询扩展技术和搜索结果自动聚类技术。在查询扩展技术中引入语义计算是一个重要研究方向。现有的解决方法普遍存在引入无关词、缺少领域知识以及筛选函数不恰当的问题。本文提出了一种结合了领域知识选取与局部反馈的语义关联树的查询扩展模型,从语义的角度进行查询扩展,改进了扩展词筛选函数、增加了阈值限定,有效控制了噪音。在聚类算法上,STC方法是一种公认较好的用于Web搜索结果聚类的算法。SHOC、Lingo算法将向量空间模型(VSD Model)与后缀树文档表示模型结合起来,既考虑了词的位置信息,又考虑词的统计特性,在STC的基础上有了较好的发展。然而,现有的聚类算法普遍存在聚类标签可读性不强,信息量不足,区分性较差等问题,且聚类结果不能充分反映用户兴趣。本文提出了一种改进的Web检索结果聚类推荐算法CQIG,构建后缀数组找到完整短语,结合矩阵奇异值分解产生候选聚类标签,选取更为有效的特征改进标签评分公式和聚类得分公式。同时采用了基本类合并技术,产生了更具表述性、区分性和可读性的聚类结果并有效控制了重叠聚类。本文方法同时还加强了对于中文检索的处理效果。本文建立了Web搜索结果聚类推荐引擎,采用了carrot~2平台作为基础框架,通过各种大型搜索引擎API获得源数据,通过网页清洗,分词,提取特征项,建立VSM,构造CQIG、STC及Lingo进行聚类,聚类后把聚类结果展现给用户。
其他文献
自然语言处理被认为是大数据时代十分关键的技术之一,尤其对于互联网上的“用户生成内容”进行文本分析蕴含着巨大的商业价值。主题模型是一类无监督的文本处理方法,其发展经
随着XML相关标准的推广和应用,各个领域不断涌现出大量的XML文档。如何有效管理大规模XML,文档数据,已经成为当前数据库领域中一个亟待解决的研究课题。基于关系数据库管理XM
学位
当前,互联网和移动互联网的快速普及使得信息资源爆炸性增长。丰富的信息资源一方面给人们带来极大便利,同时也在有效资源的选择上面临诸多困难。从网络信息资源的类型来看,
分布式拒绝服务(Distributed denial of service,DDOS)攻击是目前Internet很大的威胁之一。如何才能找出真正的攻击者,即IP追踪问题,成为当前互联网安全领域比较活跃的课题之
近年来,互联网中流媒体的应用愈发广泛,并且已经成为推动宽带应用的主要动力。流媒体的播放耗费了大量的网络资源,并且对网络的带宽要求较高。传统的基于服务器和CDN网络的流
学位
近年来,随着互联网及数字多媒体技术的发展,数字多媒体产品的制作、复制和传输变得方便与快捷。与此同时,它们的版权保护和内容的真实性与完整性检测也成了迫切需要解决的问
本文的研究工作主要分为两个部分:知识编译技术和可能性灵活规划问题。作为自动推理技术的一个方面,知识编译技术是处理命题逻辑知识库常用的一种新技术,知识编译的过程就是
目前,OA系统在各个行业和企业的应用已经相当普及,是人们在办公时使用最多、最频繁的基本系统之一。目前的OA系统多数以.NET或Java技术为基础而开发,普遍存在系统功能全但针
学位
目前,基于因特网的Web应用软件迅速应用到社会的各个领域,同时由于Web应用软件的结构、运行环境和负载等因素的复杂性,Web应用软件的测试比传统软件的测试更复杂,需要进一步
相似搜索已经成为P2P网络研究中的热点问题。M-CAN通过锚点比对的方式将原始数据空间映射到低维向量空间,然后在低维向量空间上进行数据的发布和搜索。但是映射过程会造成信
学位