Web日志挖掘相关技术及算法的研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:sunliu168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展与快速普及,Web站点无论在访问量、大小还是在网站设计的复杂度上都以惊人的速度增长着,在给人们带来丰富信息和极大便利的同时,也对自身的设计和功能提出了更高的要求。如何了解用户的兴趣和爱好,分析用户的浏览行为,使站点结构变得更加合理,更好的挖掘站点潜在的商业价值,解决这些问题的途径之一就是将传统数据挖掘技术应用于Web日志挖掘,并针对Web日志的新特性,对传统挖掘方法进行扩展和改进。目前,Web日志挖掘已经成为国际上一个新兴的重要研究领域,其研究工作具有非常重要的现实意义。本文系统地阐述了论文的研究背景及Web日志挖掘的整个过程。首先,在日志预处理过程中,结合用户浏览行为和基于内存的挖掘算法提出了一种新的最大向前引用识别用户访问事务识别方法(IMFR),该方法可以有效避免用户不感兴趣的导航页面对挖掘结果的干扰。其次,在对频繁模式算法和FP-tree进行了深入研究的基础上,提出了IFP-tree构造算法,采用动态节点插入技术构造频繁模式树,该算法可以有效缩小树的宽度以达到压缩数据空间的目的,同时提高前缀路径的共享性,使基于此树的挖掘算法具有更高的效率。再次,本文在IFP-tree结构的基础上对最大频繁模式挖掘算法FPmax进一步优化,提出了IFPmax算法,利用结点的秩进行子集检测前的预判断,根掘最大频繁模式的性质对已经存在的结点进行标记,有效避免了结点的冗余遍历,为最大频繁模式挖掘算法提高了时间效率。最后,通过实验证明改进算法的优越性,结果表明在数据库较大或最小支持度较低时性能提高更加明显。
其他文献
学位
遗传算法是模拟自然环境中生物的遗传和进化过程而形成的一种优化算法。遗传算法具有全局搜索能力、隐并行性、鲁棒性、操作简单等特点,常被用于解决一些传统优化方法难以解
智能交通系统(ITS,Intelligent Transport System)将信息技术、通信技术结合,从而解决目前交通基础设施以及车辆行驶中的诸多问题,有效地利用这套系统可以减少交通拥塞、改善
为了使教师了解学生的学习状况,需要组织学生参加考试,试卷质量的高低决定着能否对学生进行准确的评价。教师手工命题这种传统组卷方式不仅耗时、耗力,而且很难避免教师的个人经
学位
海洋渔业是我国农业的重要组成部分,是国民经济的一个重要产业部门[1]。近年来,随着信息技术的发展,如何获得有价值的渔场知识,尤其是渔场动态知识,科学准确地进行渔情预测,通过智
随着经济的急速发展和通信技术的快速进步,无线视频监控系统由于其便利和高效的优点,已经成为应用和研究的热点。   本课题来源于学院与国家海洋局东海信息中心联合开发的东
随着计算机技术、网络技术的快速发展,多点接收数据的通信需求日益增加。组播通信技术是实现这类数据传输的最佳通信方式。网络编码技术的诞生为组播通信方式提供了一个新的平
从二维图像获取三维世界信息一直是计算机视觉的主要研究目标。作为计算机视觉的一个重要分支,三维重建主要实现从二维图像计算出三维世界的模型。传统的三维重建是以摄像机标