基于Web日志的分布式并行数据挖掘算法研究

来源 :电子科技大学 | 被引量 : 6次 | 上传用户:w66827552
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在21世纪的今天,飞速发展的互联网给人们日常生活带来了巨大的便利,各行各业都在向互联网化靠拢。同时,用户在网络上的行为足迹大多被记录在Web日志文件中,通过对这些文件进行有效的算法分析,将得到很多有价值的信息。和普通的文本挖掘文件源不同的是,由于人们经常进行网络操作,Web日志文件的数据量十分巨大,因此普通的串行化算法不再适用,而并行化算法开始在Web数据挖掘领域快速流行起来。Apache Hadoop作为目前最为成熟的并行化框架,被开发人员在Web数据挖掘中广泛的使用。在算法方面,使用并行化的聚类算法对Web日志文件进行运算,可以为日志文件所在站点在内容结构优化、用户内容推荐等方面提供依据。本文在Hadoop平台下利用Web日志文件作为数据源对象进行聚类分析,同时研究分析聚类算法。主要完成几个方面的工作:1.研究Hadoop和Web数据挖据的相关知识;2.进行Hadoop分布式平台的整体搭建,除了基本的Hadoop平台,还有Mahout的安装、Eclipse上Hadoop插件的安装、模块的配置和资源的分配、设计并行化预处理模型;3.研究Canopy算法和K-means算法的优缺点,结合两个聚类算法的基本思想,提出一种改进算法。4.研究Canopy和K-means算法并行化,利用MapReduce分布式计算模型进行算法并行化设计;5.设计算法对比实验,论证改进算法和并行化算法的优势,以及在实际应用上的价值。
其他文献
学位
在信息时代的今天,数字多媒体概念已经深入人心,视频编解码作为多媒体技术的重要内容,从上世纪中后期以来已经得到了飞速的发展,目前国际上两大主流的视频标准MPEG与H.264占据了
随着数字音频技术的发展和专业音频处理软件的普及,人们可以更加方便地获取数字音频资料,并根据不同工作目的进行编辑和修改。然而,对音频文件的编辑与修改却对其完整性、可
医学图像的检索以及诊断技术研究作为计算机科学和医学的交叉研究领域,逐渐成为国内外医学以及计算机科学领域的重要研究方向之一。利用数据挖掘技术可以挖掘出蕴含在图像内部
多输入多输出(MIMO)技术作为提高无线通信系统频谱效率和链路可靠性的关键技术,已经得到深入而广泛的研究。近年来,一种被称作大规模MIMO的新技术以其特有的性能优势得到了研
如今,随着分布式网络应用范围的扩大,对传统分布式网络提出了确定性、实时性以及容错性的新需求。为了满足这些需求,早期的研究人员提出了时间触发网络的概念,将网络事务由传
作为增强技术的一个分支,盲源分离已经得到广泛的关注。其在诸如图像处理、语音信号处理、医学信号处理、雷达信号处理中的广泛应用更使其成为当前的研究热点。当观测信号少
正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)是一种多载波调制技术,该技术具有很高的频谱利用率,而且能有效地对抗冲激噪声和多径衰落。近些年来,OFDM技术
自主式水下机器人(Autonomous Underwater Vehicle),简称AUV,是一种在具备自主导航和规划能力的基础上可进行水下环境探测和海洋开发的运载平台,可代替人类到危险或者难以到达的水