基于OLAP的Web日志挖掘研究与实现

来源 :南开大学 | 被引量 : 0次 | 上传用户:fuzaifeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,网络正在成为人们进行信息交流和信息处理的有效平台,网上信息迅速增长,信息的种类也越来越多,人们面对太多的信息无法选择和消化,此种现象称为信息过载。Internet上信息资源分布的广泛性给用户寻找感兴趣的信息增加了困难,也就是所谓的信息迷失。信息迷失和信息过载的问题日益制约人们高效地使用Internet信息。当前主要采用搜索引擎来检索Web上的信息,大多数搜索引擎缺乏主动性,未考虑个体用户的兴趣偏好,因而未能有效地解决信息过载和信息迷失的问题。因此,使用数据挖掘和人工智能等相关技术对用户的浏览行为进行分析,即对Web日志进行挖掘是提供个性化服务的一个重要方法。Web日志挖掘是Web数据挖掘中非常重要的一个研究领域和研究方向,通过分析和发现Web日志记录中的规律,可以挖掘出Web用户潜在的使用规律和模式。本文介绍了Web数据挖掘的产生背景,系统地阐述了数据挖掘技术与Web数据挖掘的思想、理论和方法,对Web日志数据挖掘过程及其中各环节的关键技术进行了深入的探讨,重点研究了Web日志挖掘的数据预处理技术和关联规则Apriori算法在Web日志挖掘中的应用。主要研究内容及结果如下:   ⑴从Web日志文件中抽取一周的数据,进行数据预处理。详细研究和探讨了Web日志挖掘中数据预处理的整个过程及方法。Web日志挖掘的数据预处理主要包括5个阶段:数据净化、用户识别、会话识别、路径完善和事务识别。   ⑵运用数据仓库中的建模技术,对预处理后的Web日志进行了多维模型建立,设计Web日志的物理存储模式为ROLAP,并对Web日志进行了联机分析处理(OLAP)。   ⑶分析了经典的基于关联规则的挖掘算法Apriori的特点,将Apriori算法应用于Web日志数据立方体的挖掘;通过合理设定支持度、置信度以及路径长度,挖掘出有效的关联规则,并对实验结果进行了详尽分析。
其他文献
随着计算机及互联网的飞速发展,诞生了许多新的技术和应用,同时也造成了大量包括存储资源在内的计算资源的闲置和浪费。对等网络,尤其是DHT网络的发展,提供了一种有效整合网
随着互联网络的不断发展,网络已经成为人们生活中不可或缺的一部分,而作为互联网络主要运用之一的电子邮件更为人们的工作和生活带来了极大的便利,甚至在某种程度上改变了人
网络拓扑控制是无线传感器网络的关键技术之一,用图论中的最小连通支配集思想在网络中组织一个虚拟的层次型骨干网络是实现拓扑控制一种常用的方式。而图论中的最小连通支配
随着信息技术的发展和网络应用的日益普及,人们之间的信息交流呈现出国际化、网络化、数字化的趋势。安全是网络发展的一个关键因素,信息安全理论与技术就变得越来越重要。数
随着Internet的应用普及及多媒体和网络技术的不断发展,数字图像的应用日益广泛,传统的基于文本标注的图像检索已不能满足检索要求,在人们试图找到一种最有效的检索方法中,基
随着XML技术的发展和普遍应用,XML已成为数据交换的标准,如何高效的实现XML的存储和更新成为非常重要的研究方向。本文的主要研究内容包括3个方面①XML文档的关系化存储方法;②
化学表达式在化学教育教学和科学研究领域占有举足轻重的地位,化学表达式的编辑也逐渐成为研究的热点。虽然目前已有相当数量的化学表达式编辑和分子结构绘制软件,但该类软件大
大规模语料库的出现和计算机处理能力的提高,使得数据驱动的方法在某些自然语言处理的子领域里,如中文分词,词性标注,语言建模等取得了巨大的成功。但在语言建模,机器翻译等领域,随
随着科学技术的发展以及机器人应用领域的扩大,人们对机器人技术提出了更高的要求,希望机器人具有更高的智能和更强的环境适应能力,机器人视觉伺服研究正是为了满足这一要求而展
随着计算机和网络技术发展,企业内部的管理模式也发生了重要改变。社会逐步由个人工作时代迈入了协同工作时代。而群件正是适应这种工作模式变革而产生和发展的。群件很大程度