Web日志数据挖掘技术的研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:dsfsfsg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Web数据挖掘研究领域中,Web日志挖掘是最重要的应用研究方向之一。Web日志挖掘的目的是找出网站用户的访问模式,其过程主要包含三个步骤:数据预处理、模式识别和模式分析。在研究Web日志及相关的数据挖掘技术的基础上,提出一种基于链接的数据清理方法,利用网页链接信息清理原始访问日志,使清理后的记录更加准确完整地反映用户访问路径。然后经过用户识别、会话识别、路径补偿等步骤将日志记录整理成适于挖掘的用户访问序列;根据序列模式挖掘理论,提出基于动态矩阵预测的网页实时推荐算法,首先通过会话编码反映用户访问路径的先后顺序,并利用动态矩阵和滑动窗筛选简化相似度计算,同时,整个过程中动态矩阵对日志的扫描减少为一遍,从而在保证满意度的基础上实现了网页在线实时推荐;通过对聚类算法的分析,提出基于兴趣相似性的Web用户聚类算法,利用日志记录和网页内容综合描述用户浏览兴趣,以提高聚类的准确性,应用传递闭包法对用户进行聚类分析,不同截集的划分体现了用户类属的模糊性,最终实现了依据浏览兴趣对用户的模糊聚类。这些研究可以为改善网络访问速度,提高网站访问量,合理调整站点结构,发掘潜在客户以及网络欺诈检测等应用提供新的思路和借鉴。
其他文献
电信网是由多厂商各种设备组成的异构网络,随着网络规模的膨胀、复杂度的增加、电信网中更多接口的开放,网络管理系统与被管系统之间的网管接口也越来越复杂。 网管接口是实
近年来,处理无限的连续数据流的应用日益流行,比如网络日志、传感器网络等。数据流聚类(datastreamclustering)逐渐成为数据挖掘领域的热点研究问题之一,由于数据流的数据量无限
随着电子商务的日益普及和广泛的应用,传统的企业开发平台正面临着严峻的挑战。由于电子商务的内部逻辑复杂,安全性要求苛刻,商务形式发展变化快,这就要求开发平台提供足够的
本文介绍了利用指纹识别技术开发的考生身份识别系统,该系统可以很好地解决考生身份的确认问题。 本文介绍了本系统应用的关键技术:ADO.NET、MicrosoftWindows2000Server、.
随着我国“十一五规划”的提出,中央政府下了更大的决心以提高政府行政能力水平。电子政务近几年的飞速发展同时也见证了我国政府从传统“管理型”向现代“服务型”政府转变所
多计算机系统中的互连网络为处理器之间相互通信提供了一种有效的机制,是决定系统性能的重要因素之一。在互连网络中,节点间的通信由路由算法实现。路由算法决定了一条消息或
近年来,水平井已逐渐成为世界范围内油气藏增产的重要手段,这使得深入研究水平井的油藏工程理论,准确把握其生产动态成为必要。在水平井生产时,实际有效的产油长度并不是整个水平
生活在一个信息技术日新月异,网络技术推陈出新的时代,生活中,人们对获取数据的方式也不断发生变革。特别是近年来移动互联网技术的兴起,通过移动终端就能方便的获知用户方方面面
本项目为厦门大学计算机系与清华大学智能技术与系统国家重点实验室合作的国家军工863项目飞控计算机通讯卡子课题的进一步引伸。SCI协议是一种可支持高性能多处理器,一致性
学位
本文讨论了处理具优势对称部分的非对称非线性问题的不精确Newton方法。利用矩阵分裂技术,建立了求解此类问题的一类不精确Newton分裂极小参量法、不精确Newton分裂对称LQ法(简