论文部分内容阅读
自互联网诞生20多年以来,基于Web的信息系统、电子商务、Web服务等领域得到迅速发展和壮大,同时数据收集和数据存储技术的快速进步使得互联网上囤积了海量的点击流数据和用户数据,从这数以万亿计的数据中提取有价值模式已成为巨大挑战。阶段的研究分成三大主要方向:基于Web结构挖掘技术、基于Web内容挖掘技术和基于Web使用挖掘技术,其中基于Web使用挖掘技术就是本文重点研究的内容。本文主要以Web用户访问数据预处理过程、访问轨迹聚类使用技术以及在Web用户访问个性化推荐等方向为主线着手开展研究,主要研究成果从以下几个方面阐述。首先在深入研究了使用Web使用挖掘领域的相关理论和技术之后,给出了挖掘实施过程整体框架,包括Web用户访问数据预处理工作、Web访问轨迹聚类、应用个性化推荐等核心模块。在预处理阶段详细阐述了预处理的数据格式化、访问数据元识别、数据完整性、访问事务识别等个子过程的方法步骤,并附以文字图示详细阐述。用已经公开的远程服务器日志作为数据集,实验验证了提出的方案的正确性并得到聚类粒度小的用户访问记录,这对后期的工作打下坚实的基础。其次针对Web使用数据量庞大、聚类过程的效率不高并占用大量系统资源、聚类结果准确性的评估等问题,提出了用户兴趣特征的形式化表示方法和用户之间的相似度计算方法。另外,在KPC聚类算法的基础上引入投票选举策略思想,加速改进算法的收敛速度,提升聚类结果的精准度,并且验证实验显示出期望的结果并且具有很高的现实指导意义。最后一部分是依据前两方面的成果,针对互联网造成的信息泛滥、信息迷航问题,提出一个基于改进聚类算法的用户访问个性化推荐模型,给出了其中详细的形式化定义并列出判定当前用户隶属聚类中心的算法步骤。针对上述给出的方法进行了仿真实验验证模型可行性。