论文部分内容阅读
随着石油行业信息化的建设,像勘探信息、油田开发信息、地面建设信息、储运销售信息、经营管理信息等各类石油信息已经形成了一定规模的海量数据资源,并且这些信息大部分都是以Web站点的形式提供给用户。如何更好的组织这些信息,为用户提供智能网站信息分类,以及满足用户的个性化信息需求,是需要解决的问题。针对这些问题,本文提出了挖掘石油信息用户访问行为模式的方法,该方法通过分析用户对石油信息的访问情况,揭示隐藏在日志中的用户对石油信息的访问习惯和兴趣,帮助油田用户从大量石油信息中方便的阅览到需要的石油资讯。石油信息用户访问行为模式挖掘研究主要分为3个阶段:数据预处理、模式发现、模式分析与应用。在数据预处理阶段,提出了以网站首页结合动态时间阈值会话识别改进方法,实验验证该方法能更好的提取用户的浏览路径,提高数据预处理结果的准确性。在模式发现阶段,本文采用k-means聚类挖掘算法,针对k-means算法对初始聚类中心选取依赖性很强的缺点,提出了基于密度和距离的方法来确定初始聚类中心,使聚类结果不受初始聚类中心随机选择造成的影响。并通过实验验证了改进后的算法在聚类正确性、效率与稳健性方面都有较好的表现。使用某石油信息资源网用户访问信息作为挖掘数据源,完成对该石油信息资源网站用户的聚类,通过对聚类结果的分析,从中得到了一些有用的模式,为石油信息检索和个性化服务等提供依据。