面向多站点Web日志挖掘中的数据采集与预处理技术研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:heritage102
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和信息技术的快速发展,特别是Web的全球普及,使得Web上的用户数目和信息量都在不断地增加。这样就产生了两方面的主要问题:一方面是如何让站点提供者通过分析用户的浏览行为,发现用户的浏览模式和兴趣爱好,并为其提供个性化推荐,以获得更多的用户青睐和商业价值。另一方面是如何让用户能够及时地从海量的信息中获取到感兴趣的、有价值的信息,从而降低信息过载带来的迷航问题,提高信息检索效率。通过将数据挖掘技术应用于Web日志挖掘,并根据不同挖掘应用的需求和Web日志的特性,对传统方法进行扩展和改进,可以解决这些问题。要进行Web日志挖掘首先要采集相关的日志数据并对其进行预处理。传统的Web日志挖掘的数据采集一般在服务器端、客户端、应用服务器端和代理服务器端进行。不同的数据采集方法不仅在数据源位置方面不同,而且在可用数据的种类、被收集的数据段和其实现方面都不尽相同。数据预处理主要是通过数据清理和用户识别等操作,将能够精确反映用户浏览行为的数据提取出来并转换为挖掘算法可识别的格式,其结果直接关系到后续挖掘的质量。数据采集和预处理这两方面的工作占据了Web日志挖掘的很大一部分,是Web日志挖掘的基础和关键,也是Web日志挖掘研究的重难点。通常的数据采集和预处理都是面向单站点环境进行,而本文则是面向多站点的Web日志挖掘,因此已有的数据采集方法就不再适合。为了能够采集到多站点下的用户浏览行为数据,本文提出了一种通过捕获HTTP协议数据包的网络嗅探采集方式。同时,面向多站点环境下采集到的数据由于具有海量、多样、异构、动态变化等特性,数据预处理工作也就不同于以往,特别是增加了数据清理的难度。针对这一问题,通过分析HTTP请求的特点本文提出了一种基于页面引用和时间关系的数据清理方法。最后,在局域网平台上通过多次实验来考察本文提出的网络嗅探数据采集方法和基于引用和时间关系的数据清理方法的有效性。采用精确率、召回率和F度量值等指标分析实验数据。结果表明本文提出的面向多站点下的数据采集和预处理方法是有效可行的。
其他文献
基于视觉的运动人体检测与行为识别涉及图像处理、模式识别的核心问题,在安全和军事等领域有广泛前景。因此在固定单摄像机下,研究运动目标检测与跟踪获取单人姿态序列,构造时空
随着PC机上很多新颖的3D应用被移植到移动设备上,而移动设备是电池供电的,因此其能量消耗已经成为一个迫切需要解决的问题。目前存在两种体系架构:传统的CPU架构和比较流行的C
生活中嵌入式系统的应用无处不在,从通信、消费电子产品到汽车电子、智能机器、工业控制和卫星导航,其使用数量已经大大超过了通用计算机,嵌入式设备以其低功耗、可靠性高、
虚拟现实技术和互联网的发展,以及人们对旅游需求的不断增加,使得作为新兴模式的虚拟旅游得到了世界范围内的青睐。对虚拟景区漫游系统的开发研究已经成为虚拟现实领域的热点。
常识推理中的信息常常具有不一致性、不完全性和不确定性。这样的信息不能看作绝对真理,而只能称为信念。对不一致信念的处理是人工智能特别是计算机推理研究中一个关键性的
随着网络技术的迅速发展,Web应用日益广泛,其自身安全也面临着越来越多的威胁。SQL注入漏洞攻击是针对Web系统最为常见、危害最大的一种网络攻击,主要通过寻找系统漏洞对后台
随着社会经济的发展,汽车的数量呈显著增长的趋势,一方面给道路交通带来了巨大的负载压力,另一方面,由于汽车的违章行驶行为得不到及时有效的遏制,对人们的日常生活产生安全
随着信息技术的发展,海量数据库迅速增加,然而对其进行有效分析处理技术的缺乏,促使数据库中知识发现(Knowledge Discovery in Databases,简称KDD)技术的应运而生。数据挖掘(Data
近年来,软件定义网络(SDN)的理念快速兴起,同时兴起的还有SDN网络最有影响力的协议之一OpenFlow。SDN能够解决传统网络中网络结构复杂、网络管理复杂、新业务部署缓慢、厂商
聚类法在数据挖掘中具有很高的地位,但是很多传统方法只能对固定的数据集进行处理。随着技术的发展,许多领域,如互联网中的数据传输、通信网络中的通话数据、网站访问日志等,