基于WAP树栈Web用户浏览模式挖掘

来源 :厦门大学 | 被引量 : 0次 | 上传用户:zzz999z
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据挖掘技术的发展,人们尝试将该技术运用于Web,形成了Web挖掘技术,Web用户浏览模式挖掘是Web挖掘的一个重要研究方向。Web用户浏览模式挖掘是通过对Web站点服务器日志进行分析,挖掘其中隐藏的频繁模式,为用户提供个性化服务、信息导航,并为网站结构的改进和优化提供依据。本文基于WAP树和栈进行Web用户浏览模式挖掘,克服了传统算法需要创建大量子树的缺陷,时间效率有了很大地提高。   本文的研究内容主要有Web数据源采集和预处理、Web用户聚类和Web用户频繁浏览模式的发现与分析。首先,数据预处理包括数据清理、用户识别、会话识别、路径补充、事务识别五个阶段。其次,Web用户聚类是把浏览路径相似的用户聚成一类,在聚类的相似度量上,不再单纯地以访问次数或相同路径浏览时间来度量,而是考虑用户之间相同路径部分相似性和非相同路径部分相似性,从而引出相似兴趣度和非相似兴趣度两个度量值,并把这种相似度计算方法称为PIS相似度,再结合该相似度进行基于传递闭包的模糊聚类。最后,Web用户频繁浏览模式的发现与分析是根据Web用户聚类的结果,挖掘用户类的所有频繁浏览模式,再进行模式分析。传统频繁模式挖掘算法普遍有一个缺点:大量候选项的产生或频繁地创建树结构,因此大大降低了算法效率。为此,本文提出一种WSF-Mine算法,该算法结合了不连续但可重复页面序列挖掘的WAP算法和连续但不可重复页面序列挖掘的CAP算法,可以挖掘连续且可重复页面序列的频繁模式,克服了WAP算法和CAP算法的不足之处,而且除了WAP树以外,不需要创建任何一棵子树,只利用栈和频繁模式挖掘的性质即可挖掘出用户的所有频繁浏览路径。   通过实验分析,基于PIS相似度的模糊聚类结果质量有很大提高,从而提高了在聚类结果质量基础上进行模式挖掘的WSF-Mine算法效率。另外,理论和实验证明,WSF-Mine算法比CAP和OB-Mine算法的效率均有一定的提高。本文在相似度计算和频繁模式挖掘上均有提出改进算法,因此在Web用户浏览模式挖掘研究领域具有一定的参考价值。  
其他文献
当今,Hadoop集群在大数据时代下已经广泛使用,互联网公司对数据的处理和分析广泛使用Hadoop集群。一旦Hadoop集群失效,会导致数据的丢失,带来工作上的不便,甚至带来重大的经
随着虚拟仿真技术的不断发展,越来越多的研究者致力于将真实数据引入到虚拟仿真中,以达到更真实的仿真效果。但针对大规模数据以及仿真模型数据的研究仍存在仿真时效性较差、
计算机网络例如点对点(p2p)网络,它的每个节点可以作为网络中其它计算机的客户端或者服务器,允许它们之间相互共享服务或共享文件,这被认为是协商目标。在同意对一个协商目标进
随着海量数据量的增长,使得人们查找有用信息越来越难,速度也受到挑战,文本自动分类技术的研究也越来越受到人们的重视。文本自动分类方法很多,如:向量空间模型法、基于关联的
节点定位是无线传感器网络实现高层应用的前提和基础,但是节点定位算法在设计之初对安全性问题考虑不足。节点在定位过程中容易受到来自网络内部或外部的攻击。错误的定位结
近年来提出的压缩传感理论颠覆了传统的奈奎斯特理论,已成为信号处理领域研究的热点,然而,相关的研究毕竟还处于初步阶段,进一步探讨如何提高压缩传感重构准确度,具有十分重
随着互联网应用的日益发展,人们的生活和工作已经越来离不开互联网。我们每天都需要通过浏览器访问网页。但是互联网上有着大量的恶意Web服务器,当用户访问到这类的服务器时,用
目前学者们花了大量的工作来研究树木的真实感建模,目的是使计算机模拟出的树木能更加接近真实的自然树,也取得了很好的效果,但这些研亢工作大多都集中在树木的静态模拟。然
在工程实践中,越来越多的研究者开始使用多方位、精密的微位移视觉测量技术来对物体进行全方位、多自由度的测量。例如大坝、桥梁、大型建筑物等物体微变形、微位移的检测,铁轨
在众多类型的恶意软件中,僵尸网络被认为是网络安全的最大威胁。近几年,随着僵尸网络技术的发展,其结构逐渐从中心式向分布式进行转变。P2P僵尸网络利用分布式P2P网络技术来