基于日志的Web挖掘相关技术研究

被引量 : 0次 | 上传用户:fchbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展及迅速普及,Web站点为人们提供越来越多信息服务的同时,其自身结构也变得日趋复杂。如何改进Web站点结构以便于用户的访问,如何得到Web用户的兴趣爱好从而增加网站利润,等等。这些已经成为众多Web商家关注的焦点。为了解决这些问题,人们将传统的数据挖掘技术引入Web领域,通过挖掘Web日志以得到有用的信息和模式,并将这些知识用于实现商业智能,为用户提供个性化服务,Web站点优化,系统性能改进等目的。这便是Web日志挖掘。Web日志挖掘有其显著的理论与实际意义,因此受到人们越来越多的关注与研究。本文系统地论述了Web日志挖掘的基本理论与完整过程,并对其中的若干关键问题提出了创新与改进。首先,对Web日志挖掘的研究背景,意义,数据源及主要过程做了介绍,然后详细论述了Web日志数据预处理的过程及各阶段的难点与相应解决技术。重点分析了现有会话识别方法,指出其不足,在此基础上,由会话的定义出发,根据用户浏览站点习惯,提出了以站点首页及导航页作为新会话开始标识的新会话识别方法,该方法能够避免原有会话识别方法的诸多不足,且能减轻事务识别阶段识别事务的任务。通过选取真实Web日志,进行数据清理,用户识别后,分别编程实现了新会话识别方法和原有会话识别方法。实验结果证明,新会话识别方法比原有方法识别会话数更多,而且也更加准确。其次,详细分析现有页面兴趣度计算方法的不足,在综合考虑页面被访问的频度及访问时间的基础上,提出一种改进的页面兴趣度计算方法。通过分析验证,改进的页面兴趣度计算方法更加合理真实地反映出用户对页面的感兴趣程度。最后,以改进的页面兴趣度计算方法给站点被访问页面赋予相应权重,给出权重阈值及频繁加权访问序列的定义,将GSP算法引入到页面加权后的用户访问序列模式挖掘中。通过实验证明,将改进的兴趣度用于访问序列模式挖掘,得到的频繁加权访问序列,更能准确体现用户的访问行为。
其他文献
虽然说不以成败论英雄 ,但学生在考试中的成功与否确实将会对个人的心理产生很大影响。个人能否正确对待 ,这在自己今后的学习过程中都会发生很大的作用
Objective: To investigate falls and risk factors in patients with myotonic dystrophy type 1 (DM1) compared with healthy volunteers. Methods: 13 sequential patie
20世纪90年代末和21世纪初世界各国公司财务丑闻案频频曝光。在这一系列舞弊丑闻中,传统的监督者——“外部审计师和董事会成员”丝毫未能发挥作用,人们逐渐把目光转向内部审
财务学界对资本结构问题的研究由来已久,并且从MM理论诞生开始,资本结构理论更是引起了学术界的更大关注。由于企业的资本结构影响其加权平均资本成本即综合资本成本,而企业
从国家政策、治理意义及清洁生产的角度,阐述了塑料包装企业治理挥发性有机物(VOCs)的必要性和可行性。通过对多家塑料包装企业的调研,讨论了实施VOCs治理对塑料包装行业的影响以
艾伟的《风和日丽》以共和国的60年历史变迁为基本写作背景,通过若干主要人物曲折命运的充分展示,对人物复杂深邃的人性世界进行了深入的探究挖掘,而且还甚为成功地刻画塑造
早期的社区卫生服务是相对于医院服务而言的,人们一般把非住院的医疗服务称作社区卫生服务。社区医院可以实现"大病上医院,小病找社区"这一目标,大大缓解了就医难的问题和大医
中国古代边塞诗的边景描写经历了三大阶段,呈现为表现与再现、壮美与趣美相对应的二重美学境界。边塞写景的二重境界,与边塞诗发展演进的两大阶段(唐以前和宋元明清)、两类诗
启蒙运动是欧洲文明的转折点,其精神内核是理性与自由,认为人人均有理智及道德的可完善性。启蒙是文艺复兴中人本精神与宗教改革个人主义的发扬,也是自然科学的知识系统与研
查尔斯·M·科里亚(Charles M.Correa)是印度著名建筑师。他不仅提出了采用被动式自然能源解决建筑照明。通风及温度的理论,而且在设计中形成了一种新建筑艺术形式。这里我们