论文部分内容阅读
在Web数据挖掘研究领域中,Web日志挖掘是最重要的应用研究方向之一。Web日志挖掘的目的是找出网站用户的访问模式,其过程主要包含三个步骤:数据预处理、模式识别和模式分析。在研究Web日志及相关的数据挖掘技术的基础上,提出一种基于链接的数据清理方法,利用网页链接信息清理原始访问日志,使清理后的记录更加准确完整地反映用户访问路径。然后经过用户识别、会话识别、路径补偿等步骤将日志记录整理成适于挖掘的用户访问序列;根据序列模式挖掘理论,提出基于动态矩阵预测的网页实时推荐算法,首先通过会话编码反映用户访问路径的先后顺序,并利用动态矩阵和滑动窗筛选简化相似度计算,同时,整个过程中动态矩阵对日志的扫描减少为一遍,从而在保证满意度的基础上实现了网页在线实时推荐;通过对聚类算法的分析,提出基于兴趣相似性的Web用户聚类算法,利用日志记录和网页内容综合描述用户浏览兴趣,以提高聚类的准确性,应用传递闭包法对用户进行聚类分析,不同截集的划分体现了用户类属的模糊性,最终实现了依据浏览兴趣对用户的模糊聚类。这些研究可以为改善网络访问速度,提高网站访问量,合理调整站点结构,发掘潜在客户以及网络欺诈检测等应用提供新的思路和借鉴。