搜索引擎中的网页自动聚类和多文档自动摘要技术

来源 :北京师范大学 | 被引量 : 0次 | 上传用户：heaweawelf

【摘要】

：

搜索引擎作为互联网上最主要的信息搜索工具之一，是广大网络用户用于查询信息的主要工具。然而，近年来，由于网络信息量迅猛增加和网络信息组织的无序性，用户很难从传统搜索引擎返

【作者】

：

马慧芳

【机构】

：

北京师范大学

【出处】

：

北京师范大学

【发表日期】

：

2006年期

【关键词】

：

搜索引擎网页聚类向量空间模型多文档自动摘要文本关系图相似度计算

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

搜索引擎作为互联网上最主要的信息搜索工具之一，是广大网络用户用于查询信息的主要工具。然而，近年来，由于网络信息量迅猛增加和网络信息组织的无序性，用户很难从传统搜索引擎返回的检索结果中找到自己所需的信息。对于搜索引擎的优化很多论文都有所说明，而本文是针对返回结果的组织不具有层次性这一问题，为用户提供一种有效查找和合理描述文本内容的组织机制。本文提出了在搜索引擎的返回结果中首先应用网页聚类技术，也就是对其返回结果进行自动分类，尽量让内容相似的结果聚为一类。然后针对每类结果，应用多文档自动文摘技术显示该类主要内容，以此来方便用户迅速定位到特定的类别结果中。接着对每类的单个网页作自动摘要，利于用户选定所需信息。本文对上述涉及的若干问题进行了详细阐述。首先介绍搜索引擎的一般工作原理：分别分析了搜索软件，索引软件，检索软件的一般工作原理，并且指出现有搜索引擎的一些不足和缺陷，特别是针对返回结果的组织性，提出一种基于网页聚类和多文档自动文摘技术的搜索引擎模型。接着讨论网页聚类技术：首先给出聚类的一般过程。并且分析网页聚类与文档聚类的不同之处，总结网页区别于普通文档的三个特点，并提出了一种网页聚类算法的实现过程，最后阐述了不同聚类算法的适应场合。最后也是本文的重点阐述多文档自动文摘技术：首先分析在搜索引擎环境下自动摘要技术的应用。然后讨论多文档自动文摘技术中的几个关键技术：篇章分割(Texttiling)，实质上是对网页的预处理，将文本分割为语义上联系相对较小的节，对应于一个个主题；段落相似度计算，是利用知网(Hownet)采用基于概念向量空间模型的方法来进行段落相似度计算，并分析实验结果；文本关系图的构建，也就是依据片段之间的相似度，按照上一步得到的相似度值，若两个文本片段之间的相似度超过特定的值，在这两个文本片段之间建立一条“边”，将特定的片段连接形成“文本关系图”；最后生成文摘等。并给出在搜索引擎中使用该技术时的一种实现方案。

其他文献

J2ME手机游戏开发平台的设计与实现

手机游戏产业的蓬勃发展，使许多游戏爱好者希望能够进入这个领域，成为手机游戏的设计和开发人员。目前，市面上的手机游戏开发工具主要针对专业的程序设计人员，使用它们都需要编写

学位

手机游戏手机游戏可视化开发可视化开发J2MEJ2MEEclipse插件Eclipse插件EclipseGEFEclipseGEF

基于马尔可夫链的期望到达时间距离学习

随着移动互联网的高速发展和智能设备的广泛普及,各类图像和文本数据在以前所未有的速度迅速膨胀,基于大数据的各种机器学习应用正在蓬勃发展。围绕机器学习算法中常用的距离

学位

距离度量马氏距离马尔可夫链期望到达时间

安全服务平台的UDDI、登陆认证、远程访问和入侵检测的设计与实现

对于那些存在着服务提供方和服务使用方的信息系统，传统的服务提供方式在通讯安全、认证机制、访问控制机制、审计信息、服务收费、信任评估、系统监控、黑客入侵等方面存在着

学位

UDDIUDDI单点登陆单点登陆TelnetTelnet入侵检测入侵检测Web服务Web服务

并行防火墙研究

在网络安全中，防火墙是建立网络边界、加强网络安全的重要设备。根据防火墙工作的层次和方式，防火墙上可以分成包过滤防火墙、代理防火墙。包过滤防火墙由于出色的性能而被广泛

学位

计算机网络网络安全并行防火墙数据过滤

基于Windows的远程复制系统的研究和开发

本文对基于Windows的远程复制系统的开发进行了研究。文章针对当前的数据复制技术进行了研究和讨论，提出一个Windows平台下的远程复制系统(Remote Volume Replicator，简称RVR)，

学位

数据容灾数据备份远程复制

面向检索的三维模型骨架抽取技术研究

随着计算机软硬件技术的不断发展，多媒体技术的逐渐成熟，三维模型这种相对于二维图形、图像更加有表现力的媒体形式逐渐流行，并成为多媒体组成中的重要成员。虽然三维模型的创建

学位

三维模型多媒体检索网格模型骨架抽取技术面向检索

基于Web GIS的楼宇信息系统的设计与实现

WebGIS——基于Internet的地理系统是将网络与地理信息系统相结合的产物，也是网络发展的必然趋势。将WebGIS应用于楼宇信息管理系统(BIS)，采用B/S模式的体系结构，最终实现楼宇各

学位

组件技术矢量图形楼宇信息系统地理信息系统WebGIS

PKI技术的应用研究

全球经济发展正在进入信息经济时代，知识经济初见端倪。但随着Internet、E-business的发展，信息系统安全问题越来越引起世界上各国、各行各业的人们的关注，它所涉及的范围非常广

学位

数字签名加密信息安全公钥基础设施身份验证证书管理

服装类商品属性实体识别与规范化研究

服装类商品占据电子商务市场巨大份额，而针对的服装类商品属性实体识别的开放研究却较少。对服装类商品属性实体识别技术的研究，为电商信息检索、个性化商品推荐、广告系统、以

学位

电子商务服装类商品实体识别实体规范化图像处理

面向XML数据处理的乐观并发控制技术研究

由于XML具有自描述、语法简单、可扩展性强等优点，广泛应用于电子商务、电子政务等应用系统中，并发展成为数据交换和数据表示领域事实上的标准。随着XML数据量剧增，研究人员提出

学位

XML数据库乐观并发控制技术内存共享机制多核环境

搜索引擎中的网页自动聚类和多文档自动摘要技术

与本文相关的学术论文