论文部分内容阅读
搜索引擎作为互联网上最主要的信息搜索工具之一,是广大网络用户用于查询信息的主要工具。然而,近年来,由于网络信息量迅猛增加和网络信息组织的无序性,用户很难从传统搜索引擎返回的检索结果中找到自己所需的信息。对于搜索引擎的优化很多论文都有所说明,而本文是针对返回结果的组织不具有层次性这一问题,为用户提供一种有效查找和合理描述文本内容的组织机制。本文提出了在搜索引擎的返回结果中首先应用网页聚类技术,也就是对其返回结果进行自动分类,尽量让内容相似的结果聚为一类。然后针对每类结果,应用多文档自动文摘技术显示该类主要内容,以此来方便用户迅速定位到特定的类别结果中。接着对每类的单个网页作自动摘要,利于用户选定所需信息。本文对上述涉及的若干问题进行了详细阐述。
首先介绍搜索引擎的一般工作原理:分别分析了搜索软件,索引软件,检索软件的一般工作原理,并且指出现有搜索引擎的一些不足和缺陷,特别是针对返回结果的组织性,提出一种基于网页聚类和多文档自动文摘技术的搜索引擎模型。
接着讨论网页聚类技术:首先给出聚类的一般过程。并且分析网页聚类与文档聚类的不同之处,总结网页区别于普通文档的三个特点,并提出了一种网页聚类算法的实现过程,最后阐述了不同聚类算法的适应场合。
最后也是本文的重点阐述多文档自动文摘技术:首先分析在搜索引擎环境下自动摘要技术的应用。然后讨论多文档自动文摘技术中的几个关键技术:篇章分割(Texttiling),实质上是对网页的预处理,将文本分割为语义上联系相对较小的节,对应于一个个主题;段落相似度计算,是利用知网(Hownet)采用基于概念向量空间模型的方法来进行段落相似度计算,并分析实验结果;文本关系图的构建,也就是依据片段之间的相似度,按照上一步得到的相似度值,若两个文本片段之间的相似度超过特定的值,在这两个文本片段之间建立一条“边”,将特定的片段连接形成“文本关系图”;最后生成文摘等。并给出在搜索引擎中使用该技术时的一种实现方案。