网站日志的数据挖掘

来源 :重庆大学 | 被引量 : 0次 | 上传用户:xueyueer001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着INTERNET上数据量呈爆炸式的增长,信息数据的有用性变的十分必要。WEB挖掘是将数据挖掘技术应用于互联网,目前在许多研究领域都是热点。作者讨论了WEB挖掘和WEB挖掘的分类。根据挖掘的内容,WEB挖掘可分为三种,WEB使用挖掘,WEB内容挖掘,WEB结构挖掘。对每种挖掘,作者都讨论了与其相关的研究领域,技术和发展方向。WEB使用挖掘是本文主要的研究方向。WEB使用挖掘是利用数据挖掘技术根据WEB使用数据挖掘用户访问网站的行为模式。网站使用记录挖掘不同与网站内容挖掘和网站结构挖掘,它的挖掘对象不是网上的原始数据,而是记录用户与网站交互的过程的数据。就些数据包括:客户端浏览器日志记录,网站服务器访问记录、代理服务器日志记录、用户注册信息等。WEB使用挖掘分为三个阶段,数据预处理,模式发现,模式分析。作者详细讨论了这三个阶段所遇到的问题和解决办法。许多数据挖掘方法在WEB挖掘上都有很好的应用,作者讨论以下几种在WEB使用记录上常用的方法,统计分析方法,关联规则方法,序列模式方法,聚类方法,分类方法,并着重讨论关联规则方法应用于WEB使用记录的挖掘。关联规则方法在数据挖掘领域被广泛应用,它主要用于发现有用的模式,典型的例子就是购物篮分析。将关联规则应用于WEB使用记录挖掘的关键在于如何构造购物篮。用户点击网站的每一页所产生的动作都被服务器记录在日志中,分析日志文件,并结合网站的拓扑和实际内容,经过数据清理,用户识别,会话识别,事务识别四个数据预处理过程,我们可以获得一个事务集合,从而构造购物篮。作者详细讨论了在构造购物篮的过程中所遇到的问题和解决办法。Apriori 算法是一种著名的关联规则挖掘算法,本文讨论了该算法及其实现,并将其应用到一个典型的网站上。最后,在这些工作的基础上,作者将WEB使用记录挖掘应用到重庆电视台互联网站上,得到了一些有用的模式。
其他文献
本文介绍了辽宁投资项目决策支持系统LNIPDSS(LiaoningInvestmentProjectDecisionSupportSystem),它是把决策支持系统技术、面向对象技术、数据仓库技术、计算机技术综合应用
随着软件业的发展,人们已经意识到软件过程是软件工程的一个重要基础,高质量软件的生产越来越依赖于软件组织在生产中是否采用了适当的软件过程,以及在组织内部是否不断地改
长期以来,网络上存在着大量异构的数据库,它们的异构性表现在多个方面,如数据的类型不同,数据的表示不同,管理数据的软件不同,以及系统运行的环境不同。随着企业合作和政务电子化的
本文在自主开发的多级安全空间数据库管理系统SecVISTA之上,针对存储隐通道和时间隐通道两大类,分别设计并实现了不同的隐通道消除模块。文章基于多实例、大容量缓冲和泵协议等
本论文系统地描述了具有入侵检测功能的防火墙的实现方法,实现成果和结论。对于在防火墙层次实现网络入侵的过滤,在现存的技术手段和科学研究的基础上,已经可以比较容易地实现一
数据挖掘是随着信息技术不断发展而形成的一门新学科。它帮助人们在信息海洋中发现有用的知识和信息。数据挖掘按照其任务主要可以分为4种:聚类、分类、关联规则、序列-模式
随着信息技术的快速发展,真实世界中数据的规模也在以几何级的速度增长,出现了大量的高维数据,这些数据具有高维稀疏性。数据的这种高维稀疏性给现代数据分析与处理带来巨大
防滑刹车控制盒是飞机刹车系统的重要控制部件,在飞机的安全起飞和平稳着落过程中,起着重要的作用。飞机在刹车过程中的会面临复杂多变的天气、跑道路况,以及降落过程的持续时间
移动Agent是一个能在异构网络中自主地从一台主机迁移到另一台主机,并可与其他Agent或资源交互的程序,它除了具有智能Agent的最基本特性—自治性、反应性、主动性和交互性外,还
随着语音技术的发展,语音网络正在进入一个全新的变革时代——下一代网络(NGN—Next Generation Network),NGN向用户提供了全新的通信模式。在因特网可通达的区域,在国家法律