Web结构挖掘中HITS算法的优化与实现

来源 :河南大学 | 被引量 : 0次 | 上传用户:emydisk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet是一个巨大、分布广泛、全球性的信息服务中心,它提供了各种各样的信息服务。与此同时,如何从Internet所提供的浩如烟海的信息中获取所需信息或是从中提取有用知识便成为一个急需解决的问题。搜索引擎是目前最主要的Web检索工具,然而搜索引擎返回的文档质量参差不齐,难以满足用户对高质量检索结果的需求。将传统的数据挖掘技术和Web结合起来,进行Web挖掘成为解决这一问题的重要途径。结构挖掘是Web挖掘的一个重要方面,研究表明Web上的链接结构含有非常丰富和重要的信息,链接分析技术已经被成功的用于分析Web超链接数据来确定权威信息源。在各种对网页进行链接分析并提取主题的算法中,HITS(Hyperlink-Induced Topic Search)算法是最典型的。通过对HITS算法的深入研究发现,该算法存在一定的不足。HITS算法在扩展根集阶段对页面的不合理选取导致无效链接过多,直接影响最终权威信息源的质量;给不同的Web站点作者规定了不平等的影响权重,导致了链接间不合理的相互加强关系;Web链接结构的自组织性导致迭代分析往往收敛于链接结构图中与查询主题不太相关的紧密连接区域(TKC),从而导致主题偏移。针对以上不足,本文提出了一种结合内容分析与链接分析的主题精选算法——W-HITS算法,并开发了实验系统,对该算法进行了验证,通过对实验结果的分析讨论证明改进后的算法较原算法更合理有效。本文的主要贡献有以下几点:(1)提出了更有效的获取基集的方法,赋予了文档作者间平等的影响权重,使精选出的权威和中心网页更为客观合理;(2)通过内容分析给信息源赋予了主题相关度权重,并运用加权的I/O操作进行链接分析,使主题相关度较高的信息源得到较高的排序分值;(3)对主题相关度很低的信息源进行修剪,排除他们对排序分值计算的干扰,进一步保证了主题精选结果是真正的查询主题下的权威/中心源;(4)提出了验证该算法有效性的实验方案,并开发了实验系统,对该算法进行了验证,并对实验结果进行了分析讨论。
其他文献
本文以GIS技术为基础,对煤矿监测系统空间数据库的应用进行了研究。空间数据库的飞速发展突破了传统的数据库基于文字、数字信息应用的限制,可用于存储和分析大量具有复杂结
互联网科技迅猛发展,我们的生产和生活无时无刻都在受其影响。因为它已经在我们的生活中炸开了,每一个角落和每一寸土地。越来越多的用户已经习惯将自己私有的文件和应用程序
数据库作为信息系统的重要组成部分,在整个系统的构建和应用中承担着核心的角色,在信息系统的安全保障方面也占据着重要的地位。目前,对数据库加密的研究在国内外都是一个新
铁路运输在国民经济中占有重要的地位,随着铁路运输生产的发展,铁路运量不断增加,速度越来越快,技术更加先进。铁路车站尤其是编组站是铁路基本的也是最重要的生产单位。主要任务
随着计算机网络特别是Internet的飞速发展,网络的规模不断扩大,网络复杂性不断增强。传统的简单网络管理协议(SNMP)已经越来越不能满足网络管理的要求。在基于XML的网络管理中,
随着计算机网络技术的迅速发展,越来越多的不法分子利用网络入侵进行违法犯罪活动。如何有效地获取能证明相关计算机犯罪的电子证据,有力地打击计算机犯罪,这就涉及到计算机入侵
基于视觉的人体姿态恢复是计算机视觉领域的一个重要而有挑战性的问题,在智能监控、人机交互、视频语义标注等领域有着广泛的应用。人体姿态恢复固有的复杂性,譬如姿态描述的高
近年来,P2P技术被广泛地应用于文件共享领域:因特网上有大量用户使用P2P软件共享音乐文件、视频文件等。P2P文件共享系统的流行,因为P2P计算模式具有非常多的优点,包括:非常好的可
随着互联网对生活的影响不断增加,人们面临着越来越汹涌的网络数据洪流的冲击,这股数据洪流中占比最大的就是文本数据。如何处理海量文本数据,是人们亟待解决的一个问题。在文本
本课题是全国教育科学规划教育考试科学研究专设课题“适应自考生自主学习的智能化网络学习环境建设研究”的一个组成部分。随着计算机技术在教育教学领域中越来越广泛的应用