Web访问对象轨迹聚类方法研究

被引量 : 0次 | 上传用户:xuhaoumsl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自互联网诞生20多年以来,基于Web的信息系统、电子商务、Web服务等领域得到迅速发展和壮大,同时数据收集和数据存储技术的快速进步使得互联网上囤积了海量的点击流数据和用户数据,从这数以万亿计的数据中提取有价值模式已成为巨大挑战。阶段的研究分成三大主要方向:基于Web结构挖掘技术、基于Web内容挖掘技术和基于Web使用挖掘技术,其中基于Web使用挖掘技术就是本文重点研究的内容。本文主要以Web用户访问数据预处理过程、访问轨迹聚类使用技术以及在Web用户访问个性化推荐等方向为主线着手开展研究,主要研究成果从以下几个方面阐述。首先在深入研究了使用Web使用挖掘领域的相关理论和技术之后,给出了挖掘实施过程整体框架,包括Web用户访问数据预处理工作、Web访问轨迹聚类、应用个性化推荐等核心模块。在预处理阶段详细阐述了预处理的数据格式化、访问数据元识别、数据完整性、访问事务识别等个子过程的方法步骤,并附以文字图示详细阐述。用已经公开的远程服务器日志作为数据集,实验验证了提出的方案的正确性并得到聚类粒度小的用户访问记录,这对后期的工作打下坚实的基础。其次针对Web使用数据量庞大、聚类过程的效率不高并占用大量系统资源、聚类结果准确性的评估等问题,提出了用户兴趣特征的形式化表示方法和用户之间的相似度计算方法。另外,在KPC聚类算法的基础上引入投票选举策略思想,加速改进算法的收敛速度,提升聚类结果的精准度,并且验证实验显示出期望的结果并且具有很高的现实指导意义。最后一部分是依据前两方面的成果,针对互联网造成的信息泛滥、信息迷航问题,提出一个基于改进聚类算法的用户访问个性化推荐模型,给出了其中详细的形式化定义并列出判定当前用户隶属聚类中心的算法步骤。针对上述给出的方法进行了仿真实验验证模型可行性。
其他文献
分析集成电路的版图比对电路LVS验证的必要性和难点。提出了LVS自动化验证系统架构。通过Skill汇编语言建立系统化LVS自动化验证桌面工具。这是一套适用于不同工艺的,嵌套在C
目的:探讨中医辨证用药治疗缺血性视神经病变的疗效。方法:将22例(26眼)缺血性视神经病变患者行中医辨证治疗,作为治疗组,根据病人情况分为肝经实热证、气血两虚证、肝郁气滞证
本论文通过文献研究回顾了祖国医学对股骨头缺血性坏死的认识和诊疗经验,并结合现代医学对股骨头缺血性坏死的病因、病理、诊治等方面的国内外研究成果,重点讨论了中医中药及
《义务教育语文课程标准(2011年版)》倡导自主、合作、探究的语文学习方法。在语文教学中实施探究性学习可以分为四个阶段,即创设认知需要情境,初步探究发现新知,抓住重点自
目的:观察疏肝调胃汤治疗反流性食管炎(RE)肝胃不和型的临床疗效及安全性。方法:选择符合临床纳入标准的反流性食管炎肝胃不和型患者104例,均来自2009年7月~2010年9月西安市中
文章首先分析了当前小学美术教师队伍存在的问题,然后提出了改善小学美术教师队伍问题的途径,包括提高相关人员对小学美术教育的重视程度;加强小学专业美术教师队伍的建设;教
<正>近年来,城市房价高企,环境污染较为严重,而农村环境不断改善,经济日益发展,返乡建房的村民人数越来越多,使得农村宅基地供应日趋紧张。解决农村村民建房宅基地紧缺的难题
<正>1 朱鹮的特征朱鹮分类为鹤鹭目Ciconiwlornes朱鹮科Thiskironithidae,在日本有朱鹭、红鹤、桃花鸟、鸨等名称.日本佐渡还将朱鹮昵称为美人鸟、瑞鸟等等.德国人Siebolt曾
会议
从当前中国的科学传播实践中可以总结出三个模型,它们在相当程度上也代表了科学传播的三个阶段。基于中国的复杂国情,三种模型将长期并存并发挥各自的重要作用。