搜索引擎中的网页自动聚类和多文档自动摘要技术

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:heaweawelf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎作为互联网上最主要的信息搜索工具之一,是广大网络用户用于查询信息的主要工具。然而,近年来,由于网络信息量迅猛增加和网络信息组织的无序性,用户很难从传统搜索引擎返回的检索结果中找到自己所需的信息。对于搜索引擎的优化很多论文都有所说明,而本文是针对返回结果的组织不具有层次性这一问题,为用户提供一种有效查找和合理描述文本内容的组织机制。本文提出了在搜索引擎的返回结果中首先应用网页聚类技术,也就是对其返回结果进行自动分类,尽量让内容相似的结果聚为一类。然后针对每类结果,应用多文档自动文摘技术显示该类主要内容,以此来方便用户迅速定位到特定的类别结果中。接着对每类的单个网页作自动摘要,利于用户选定所需信息。本文对上述涉及的若干问题进行了详细阐述。 首先介绍搜索引擎的一般工作原理:分别分析了搜索软件,索引软件,检索软件的一般工作原理,并且指出现有搜索引擎的一些不足和缺陷,特别是针对返回结果的组织性,提出一种基于网页聚类和多文档自动文摘技术的搜索引擎模型。 接着讨论网页聚类技术:首先给出聚类的一般过程。并且分析网页聚类与文档聚类的不同之处,总结网页区别于普通文档的三个特点,并提出了一种网页聚类算法的实现过程,最后阐述了不同聚类算法的适应场合。 最后也是本文的重点阐述多文档自动文摘技术:首先分析在搜索引擎环境下自动摘要技术的应用。然后讨论多文档自动文摘技术中的几个关键技术:篇章分割(Texttiling),实质上是对网页的预处理,将文本分割为语义上联系相对较小的节,对应于一个个主题;段落相似度计算,是利用知网(Hownet)采用基于概念向量空间模型的方法来进行段落相似度计算,并分析实验结果;文本关系图的构建,也就是依据片段之间的相似度,按照上一步得到的相似度值,若两个文本片段之间的相似度超过特定的值,在这两个文本片段之间建立一条“边”,将特定的片段连接形成“文本关系图”;最后生成文摘等。并给出在搜索引擎中使用该技术时的一种实现方案。
其他文献
手机游戏产业的蓬勃发展,使许多游戏爱好者希望能够进入这个领域,成为手机游戏的设计和开发人员。目前,市面上的手机游戏开发工具主要针对专业的程序设计人员,使用它们都需要编写
随着移动互联网的高速发展和智能设备的广泛普及,各类图像和文本数据在以前所未有的速度迅速膨胀,基于大数据的各种机器学习应用正在蓬勃发展。围绕机器学习算法中常用的距离
对于那些存在着服务提供方和服务使用方的信息系统,传统的服务提供方式在通讯安全、认证机制、访问控制机制、审计信息、服务收费、信任评估、系统监控、黑客入侵等方面存在着
在网络安全中,防火墙是建立网络边界、加强网络安全的重要设备。根据防火墙工作的层次和方式,防火墙上可以分成包过滤防火墙、代理防火墙。包过滤防火墙由于出色的性能而被广泛
本文对基于Windows的远程复制系统的开发进行了研究。文章针对当前的数据复制技术进行了研究和讨论,提出一个Windows平台下的远程复制系统(Remote Volume Replicator,简称RVR),
随着计算机软硬件技术的不断发展,多媒体技术的逐渐成熟,三维模型这种相对于二维图形、图像更加有表现力的媒体形式逐渐流行,并成为多媒体组成中的重要成员。虽然三维模型的创建
WebGIS——基于Internet的地理系统是将网络与地理信息系统相结合的产物,也是网络发展的必然趋势。将WebGIS应用于楼宇信息管理系统(BIS),采用B/S模式的体系结构,最终实现楼宇各
全球经济发展正在进入信息经济时代,知识经济初见端倪。但随着Internet、E-business的发展,信息系统安全问题越来越引起世界上各国、各行各业的人们的关注,它所涉及的范围非常广
服装类商品占据电子商务市场巨大份额,而针对的服装类商品属性实体识别的开放研究却较少。对服装类商品属性实体识别技术的研究,为电商信息检索、个性化商品推荐、广告系统、以
由于XML具有自描述、语法简单、可扩展性强等优点,广泛应用于电子商务、电子政务等应用系统中,并发展成为数据交换和数据表示领域事实上的标准。随着XML数据量剧增,研究人员提出