论文部分内容阅读
Web数据挖掘利用数据挖掘技术从网络文档和服务中发现和提取信息。Web上各种形式的文档和用户访问信息就构成了Web数据挖掘的对象。根据挖掘对象的不同我们将Web数据挖掘分为内容挖掘,结构挖掘和访问信息挖掘3大类,日志挖掘作为访问信息挖掘的一个重要组成部分,有其独特的理论和实践意义。 Web日志挖掘通过对日志记录的挖掘,发现用户访问页面的模式,从而进一步分析和研究日志记录中的规律,以期改进站点的性能和组织结构,提高用户查找信息的质量和效率,并通过统计和关联的分析找出特定用户与特定地域、特定时间、特定页面等要素之间的内在联系。Web日志挖掘数据预处理的对象是原始的日志文件中包含的数据, 其中不完整的、冗余的、错误的数据需要进行处理。本文将针对数据预处理过程中涉及到的关键问题和技术进行详细的剖析和论述,给出一个预处理模型。介绍Web日志挖掘前期工作———数据预处理的过程,可以在此基础上进行挖掘算法的实现。提出的数据预处理模型适合Web日志数据挖掘。关联规则挖掘是Web日志挖掘的一个重要的关键技术,它可以发现网络日志访问记录中隐含的相互关系。生成关联规则的过程是在每个频繁大项集中逐一匹配满足一定的支持度和可信度的规则,也就是最小置信度的测试。Apriori是关联规则挖掘算法改进的基础,但它可能产生庞大的侯选集。Han提出FP-tree算法。这个算法只进行2次数据库扫描。它不使用侯选集,直接压缩数据库成一个频繁模式树,最后通过这棵树生成关联规则。它不会有<WP=3>庞大的侯选集产生,减少了内存临时空间的占用。序列模式就是从序列数据库中找出出现频繁的子序列,描述一个事件序列的连续生成所应遵循的规则。更进一步把数据之间的关联性与时间联系起来。在Web日志挖掘中,序列模式挖掘的结果是用户页面浏览的先后顺序,这些重要信息可以通过模式分析找出页面之间的诱导作用,序列模式还表明页面浏览对用户的影响,这种信息可以用于网页的预先定制。在序列模式挖掘算法中,ApriorAll有以下缺点:缺少时间限制,刻板的异动定义,缺少分类。Srikant提出了GSP算法由Apriori扩展而来。GSP算法存在的主要问题在于可能会产生大量的候选序列模式;需要对序列数据库进行循环扫描。PrefixSpan算法不需要产生候选序列模式,从而大大缩减了检索空间相对于原始的序列数据库而言,投影数据库的规模不断减小PrefixSpan算法的主要开销在于投影数据库的构造。Web日志挖掘中模式分析与模式表达通过发现的模式研究用户Web浏览行为,理解访问者的浏览兴趣,这些都是提高Web服务质量和改善站点结构设计的重要环节,是与用户直接交互的部分,其重要性并不亚于前面两个阶段。我们设计的数据挖掘工具lsMiner所用的数据都存储在已经有了明确字段定义的数据库或文本文件里,也可称为结构化的数据挖掘工具,以上的理论和算法在系统中得到了实现。它主要用来进行预测分析、关联分析、时间序列分析以及统计分析等。