论文部分内容阅读
随着互联网的不断发展,网络已成为人们发布和获取信息的主要平台。由于互联网是一个高速增长、完全不受控制的异构信息集合,因而无论是web信息资源的利用,还是web拓扑建模,经典的信息挖掘技术和数据建模方法都很难得到有效应用,而超链分析的引入和应用为这些问题的解决提供了一条崭新的思路。本论文在对超链分析思想进行初步分析的基础上,着重就超链分析在web信息资源检索、web资源发现以及web拓扑结构建模等方面的应用进行了详细的研究。 由于超链接关系和引文关系在形式和功能上极其相似,因而引文分析的方法和思路被广泛应用于超链分析之中,但互联网动态、异构分布、无序增长等特点使得超链分析所需解决的问题更为复杂。因而,超链分析方法不仅仅只是简单的从算法上进行实现,还需要融合社会网络分析方法、复杂系统理论以及拓扑建模等技术,系统地对web超链接结构和web信息实体行为之间的关系进行研究。 对于一个特定的信息检索系统,影响检索效率的因素主要是系统对特定信息的覆盖率和对信息相关性判定的准确性。而在web环境下,信息检索的主要问题已不是覆盖率,而是如何能够滤出与查询无关的噪音,以获取准确、有用的信息。超链分析为此提供了一个量化“相关性”的自然方法。本论文的第二章对超链分析在网页爬行、关联网页发现、网页排序优化以及检索结果聚类等领域的应用情况进行了分析,并从超链分析和传统信息检索理论相结合、超链分析和用户网络行为分析相结合、以及超链分析之间的融合三个方面探讨了超链分析在web信息检索中的发展趋势,研究认为不断优化的超链分析方法丰富了现代信息检索理论,它能够有效地提高网络信息检索效率和改进搜索引擎的质量。 网页作者创建链接的过程并不是随意和无序的,而是以此作为扩展信息传播和交流空间的平台,并以相近社会背景或学科背景联结在一起,在极度分散和无序的web中,形成一个个的主题集合,并以这些主题为核心聚集了成千上万个的虚拟社区。可以说,以结构挖掘为基点的超链分析方法,为网络资源发现提供了一个量化资源“权威性”和虚拟社区发现的自然机制。本论文的第三章从一般网络主题发现方法、权威性网络主题发现方法、以及网络社区发现等三个方面对