Web日志挖掘研究与挖掘工具lsMiner的设计与实现

来源 :四川大学 | 被引量 : 0次 | 上传用户:heidaruanjiande1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web数据挖掘利用数据挖掘技术从网络文档和服务中发现和提取信息。Web上各种形式的文档和用户访问信息就构成了Web数据挖掘的对象。根据挖掘对象的不同我们将Web数据挖掘分为内容挖掘,结构挖掘和访问信息挖掘3大类,日志挖掘作为访问信息挖掘的一个重要组成部分,有其独特的理论和实践意义。 Web日志挖掘通过对日志记录的挖掘,发现用户访问页面的模式,从而进一步分析和研究日志记录中的规律,以期改进站点的性能和组织结构,提高用户查找信息的质量和效率,并通过统计和关联的分析找出特定用户与特定地域、特定时间、特定页面等要素之间的内在联系。Web日志挖掘数据预处理的对象是原始的日志文件中包含的数据, 其中不完整的、冗余的、错误的数据需要进行处理。本文将针对数据预处理过程中涉及到的关键问题和技术进行详细的剖析和论述,给出一个预处理模型。介绍Web日志挖掘前期工作———数据预处理的过程,可以在此基础上进行挖掘算法的实现。提出的数据预处理模型适合Web日志数据挖掘。关联规则挖掘是Web日志挖掘的一个重要的关键技术,它可以发现网络日志访问记录中隐含的相互关系。生成关联规则的过程是在每个频繁大项集中逐一匹配满足一定的支持度和可信度的规则,也就是最小置信度的测试。Apriori是关联规则挖掘算法改进的基础,但它可能产生庞大的侯选集。Han提出FP-tree算法。这个算法只进行2次数据库扫描。它不使用侯选集,直接压缩数据库成一个频繁模式树,最后通过这棵树生成关联规则。它不会有<WP=3>庞大的侯选集产生,减少了内存临时空间的占用。序列模式就是从序列数据库中找出出现频繁的子序列,描述一个事件序列的连续生成所应遵循的规则。更进一步把数据之间的关联性与时间联系起来。在Web日志挖掘中,序列模式挖掘的结果是用户页面浏览的先后顺序,这些重要信息可以通过模式分析找出页面之间的诱导作用,序列模式还表明页面浏览对用户的影响,这种信息可以用于网页的预先定制。在序列模式挖掘算法中,ApriorAll有以下缺点:缺少时间限制,刻板的异动定义,缺少分类。Srikant提出了GSP算法由Apriori扩展而来。GSP算法存在的主要问题在于可能会产生大量的候选序列模式;需要对序列数据库进行循环扫描。PrefixSpan算法不需要产生候选序列模式,从而大大缩减了检索空间相对于原始的序列数据库而言,投影数据库的规模不断减小PrefixSpan算法的主要开销在于投影数据库的构造。Web日志挖掘中模式分析与模式表达通过发现的模式研究用户Web浏览行为,理解访问者的浏览兴趣,这些都是提高Web服务质量和改善站点结构设计的重要环节,是与用户直接交互的部分,其重要性并不亚于前面两个阶段。我们设计的数据挖掘工具lsMiner所用的数据都存储在已经有了明确字段定义的数据库或文本文件里,也可称为结构化的数据挖掘工具,以上的理论和算法在系统中得到了实现。它主要用来进行预测分析、关联分析、时间序列分析以及统计分析等。
其他文献
数据挖掘是随着信息技术不断发展而形成的一门新学科。它帮助人们在信息海洋中发现有用的知识和信息。数据挖掘按照其任务主要可以分为4种:聚类、分类、关联规则、序列-模式
随着信息技术的快速发展,真实世界中数据的规模也在以几何级的速度增长,出现了大量的高维数据,这些数据具有高维稀疏性。数据的这种高维稀疏性给现代数据分析与处理带来巨大
防滑刹车控制盒是飞机刹车系统的重要控制部件,在飞机的安全起飞和平稳着落过程中,起着重要的作用。飞机在刹车过程中的会面临复杂多变的天气、跑道路况,以及降落过程的持续时间
移动Agent是一个能在异构网络中自主地从一台主机迁移到另一台主机,并可与其他Agent或资源交互的程序,它除了具有智能Agent的最基本特性—自治性、反应性、主动性和交互性外,还
随着语音技术的发展,语音网络正在进入一个全新的变革时代——下一代网络(NGN—Next Generation Network),NGN向用户提供了全新的通信模式。在因特网可通达的区域,在国家法律
随着INTERNET上数据量呈爆炸式的增长,信息数据的有用性变的十分必要。WEB挖掘是将数据挖掘技术应用于互联网,目前在许多研究领域都是热点。作者讨论了WEB挖掘和WEB挖掘的分类
随着计算机网络和全球信息化的不断发展,计算机及网络信息安全随之成为一个重要的问题。因此,我们需要一种能及时发现入侵,成功阻止入侵的网络安全技术,这就是入侵检测系统。本论
信息隐藏与隐写分析技术作为信息安全领域的一个研究热点,在近几年取得了很大进展。信息隐藏的原理是利用人类感觉器官对数字信号的感觉冗余,将一个消息隐藏在另一个消息中,而由
在现实世界中,人们可获取的大部分信息来自文本数据库(或文档数据库),文本数据库包含大量来自各种数据源(如新闻、研究论文、报告、书籍、杂志等)的文档。近年来,随着计算机技术
阴、阳极电流分布在线检测装置跟踪记录了大量的铝电解槽在平稳运行和发生针振时的阴、阳极电流分布变化情况及方差变化情况的原始数据;从理论上讲,在这两者之间存在一定的对