WEB日志用户会话识别及聚类分析研究

被引量 : 4次 | 上传用户:zddlcp05030613
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet在流量、规模和复杂度等方面的飞速增长,网络成为人们进行信息交流和信息处理的平台。面对网络上如此巨大的信息量,如何有效地发现个性化的信息,成为困扰用户的一大难题。为此,Web挖掘技术应运而生,其中Web日志挖掘是Web挖掘研究领域中一个重要的方面,它是将数据挖掘技术应用于Web服务器日志,通过分析日志文件发现用户访问站点的浏览模式。基于Web的日志挖掘一般分为三个过程:数据预处理阶段、模式发现阶段及模式分析阶段。在Web日志挖掘过程中,首先要进行的是数据预处理,因为现实世界中的数据多半是不完整的、含噪声的和不一致的,而且这些数据的格式多种多样。对于数据挖掘算法而言,不正确的输入数据可能导致错误或者不准确的挖掘结果,同时数据挖掘算法通常处理的是具有固定格式的数据,现实中存在的数据各式各样,因此需要将这些数据加工处理成可以被挖掘算法使用的数据。如何修补现实世界的数据的不完整及不一致、如何剔除噪声数据、如何将现有的数据转化为挖掘算法可用的格式、如何抽取有用的数据、如何将多个数据源集成在一起,这些都是数据预处理中要完成的任务。数据预处理技术是整个数据挖掘过程的主要组成部分,数据预处理的结果是挖掘算法的输入,它直接影响挖掘的质量。因此,数据预处理技术也是Web日志挖掘中的重要研究方向。数据预处理是在将日志文件转换成数据库文件时进行的,它包括数据清洗、用户识别、会话识别、事务识别四个阶段。本文深入学习研究了数据预处理的主要任务,提出了一种新的Web日志预处理会话识别及根据用户浏览兴趣进行事务识别的方法。该方法根据用户的下载时间、用户对页面内容的兴趣度及页面的信息量及页面的链入、链出数等几个参数的综合得到每个用户对每个页面的访问时间阈值,然后根据该个性化阈值来识别用户会话。会话识别后,根据用户访问页面的时间、页面的兴趣度删除用户不感兴趣的页面和链接页面,重新定义用户的Web访问事务,成为最终有效的Web页面访问序列。实验证明,本文提出的方法可以识别出页面浏览时间较长的会话,也可以把小于固定阈值的页面划入下一会话,发现的真实会话比例大,贴近用户真实的访问目的,同时依据用户浏览页面的兴趣度来删除无关链接页面,形成新的Web访问事务,为下一步的聚类分析提供了良好的数据,提高了聚类的效率。数据经过预处理后,就可以根据具体的需求来选择聚类、分类等挖掘技术。本文研究分析了聚类技术及当前的Web聚类的内容和方法,通过聚类用户访问的Web事务,发现相似的用户群。
其他文献
随着位置服务在国民经济各行各业中的广泛应用,如何对移动目标海量的位置信息进行有效管理成为了位置服务中首要解决的问题。而行之有效的时空索引是提高位置信息查询效率的
流感病毒感染导致的急性免疫炎性损伤是流感全身症状、重症肺炎乃至死亡的主要原因,而在流感相关免疫调控网络中炎性细胞因子的过度释放是炎性损伤的基础。中医药在历来的时
利用大型软件CFX建立了蓄热式加热炉炉内速度场的数学模型.采用k-ε模型数值模拟炉内的湍流流动,分析喷口几何形状及尺寸,喷口的分布位置等对炉内的速度分布的影响.计算结果
青少年时期的在美经历,使宋耀如从语言到生活方式乃至思想性格无不受到美国文化的熏陶,让他认识到中国近代化的必然趋势和美国教育的价值。因此,他冲破世俗阻力,让女儿们平等
由于成煤条件的不同,煤层的赋存条件各异。煤层厚度从零点几米到上百米,可采层数从一层到数十层,层间距离大小不等,有时还出现煤层局部合并或分岔现象。煤层层间距离不同,相
氰酸酯树脂(CE)是一种新型的热固性树脂,它在宽广的温度和频率范围内保持低且稳定的介电常数和介电损耗,同时具有良好的耐热性能和工艺性能,但其韧性较差,材料模量较低,还有
本文拟以《现代汉语词典》(第5版)为研究对象,对其中的一类词——动词的释义元语言进行研究,以考查动词释义元语言的句法语义结构类型的分布,提出动词释义元语言的句法语义规
近十几年来,盆栽羽衣甘蓝移栽花坛造景效果显著。羽衣甘蓝叶色丰富,有红、白、玫红等,叶型有波浪叶、圆叶及皱叶等,是盆栽观叶的佳品,广受大众欢迎,应用较广泛的品种‘名古屋’、‘
<正>超级计算机的价值,除了对计算机科学本身的贡献以外,更重要的是在超级计算机的支撑下解决了重大科学与工程应用领域的关键问题,促进了相关应用领域的快速发展,超级计算为
随着经济和社会发展,高等教育和地方经济及社会发展更加紧密,高等教育的社会服务职能得到了更加充分的体现。高等教育能为社会提供各类人才、科技成果;地方政府的各项事业发