论文部分内容阅读
随着互联网技术的飞速发展,网络正在成为人们进行信息交流和信息处理的有效平台,网上信息迅速增长,信息的种类也越来越多,人们面对太多的信息无法选择和消化,此种现象称为信息过载。Internet上信息资源分布的广泛性给用户寻找感兴趣的信息增加了困难,也就是所谓的信息迷失。信息迷失和信息过载的问题日益制约人们高效地使用Internet信息。当前主要采用搜索引擎来检索Web上的信息,大多数搜索引擎缺乏主动性,未考虑个体用户的兴趣偏好,因而未能有效地解决信息过载和信息迷失的问题。因此,使用数据挖掘和人工智能等相关技术对用户的浏览行为进行分析,即对Web日志进行挖掘是提供个性化服务的一个重要方法。Web日志挖掘是Web数据挖掘中非常重要的一个研究领域和研究方向,通过分析和发现Web日志记录中的规律,可以挖掘出Web用户潜在的使用规律和模式。本文介绍了Web数据挖掘的产生背景,系统地阐述了数据挖掘技术与Web数据挖掘的思想、理论和方法,对Web日志数据挖掘过程及其中各环节的关键技术进行了深入的探讨,重点研究了Web日志挖掘的数据预处理技术和关联规则Apriori算法在Web日志挖掘中的应用。主要研究内容及结果如下:
⑴从Web日志文件中抽取一周的数据,进行数据预处理。详细研究和探讨了Web日志挖掘中数据预处理的整个过程及方法。Web日志挖掘的数据预处理主要包括5个阶段:数据净化、用户识别、会话识别、路径完善和事务识别。
⑵运用数据仓库中的建模技术,对预处理后的Web日志进行了多维模型建立,设计Web日志的物理存储模式为ROLAP,并对Web日志进行了联机分析处理(OLAP)。
⑶分析了经典的基于关联规则的挖掘算法Apriori的特点,将Apriori算法应用于Web日志数据立方体的挖掘;通过合理设定支持度、置信度以及路径长度,挖掘出有效的关联规则,并对实验结果进行了详尽分析。