面向智能Web站点的数据挖掘技术研究及应用

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:temp1229
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,Internet和电子商务的发展带动了面向Web的数据挖掘技术的发展。在电子商务中,运用数据挖掘技术对服务器上的日志文件等Web数据进行客户访问信息的Web数据挖掘,根据对客户的访问行为、访问频度、访问时间的分析,得到群体客户行为和方式的普遍知识,动态地调整页面结构,改进服务,给客户个性化的界面,使电子商务活动更具有针对性。 Web挖掘技术使得人们能够充分了解Web中页面的关系,以及Web站点的组织形式与用户的访问模式之间的关联。其中,面向Web服务器日志的Web日志挖掘技术尤其得到众多研究人员的关注,利用Web日志挖掘,我们可以知道用户对网站的浏览模式,可以根据用户的浏览行为发现相似行为的用户群,以及根据Web页面被用户访问的情况将具有相同特征的页面分组。 基于上面的讨论,文中提出的提高Web服务的质量的解决方案是:采用数据挖掘技术中的Web日志挖掘为核心技术,建立一个智能Web站点(Intelligent Web Site,简称IWS)。智能Web站点利用Web日志、文档、数据库以及站点结构等可以获得的数据,采用数据挖掘技术,从中获取用户访问模式,根据用户当前访问的情况,实时地推荐用户可能感兴趣的内容,同时,Web服务器根据站点的使用情况,寻找站点设计的不合理之处,从而提醒管理员进行修正。 本文首先提出了IWS的结构和组成模块,然后围绕智能Web站点中的模块,研究了其中的一些关键的数据挖掘技术与算法,最后在此基础上实现了一个原型系统。根据这条思路,本文主要包括以下内容:第2部分给出采用Web日志挖掘技术的智能站点体系结构,作为论文后续内容的一个索引。第3到第5部分是本文的重点,论述了设计智能Web站点所需要的数据挖掘技术,第3部分主要介绍了Web日志数据预处理技术研究中的一种改善预处理结果的方法——Frame页面过滤技术。第4部分论述了一种快速高效挖掘Web日志文件中聚类模式的算法——SLIC(Slope-Item Clustering)。第5部分提出了挖掘Web日志中频繁访问页组的一个加强算法。第6部分简述了面向Web日志挖掘的智能站点的实时推荐模块和管理员模块。根据前面的讨论,第7部分给出一个试验原型系统——IWS,最后一章总结了本文的所做的研究工作并给出了进一步的研究方向。
其他文献
本文根据NewsML数据和Xquery的处理模式特点,将结构化函数内联方法应用到结构上递归的Newsml查询中,在类型信息的指导下对Newsml递归查询进行了优化.由于NewsML数据结构化和
本项目针对埃塞俄比亚的Hilton Addis酒店服务系统存在的问题,成功设计与开发了一个使用多层体系结构的酒店在线预订系统.本项目重点研究了使用多层体系结构设计与开发该系统
本文主要根据宽带IP城域网的可用性,可靠性,可扩展性,可管理性和安全性等五个方面简要论述大连数码科技宽带IP城域网络的建设和运营情况。 大连数码科技宽带IP城域网络已
构件的表示和检索机制的研究一直是构件库研究的热点。本文研究基于刻面分类和人工智能相结合的软构件分类方法,给出构件分类系统模型,重点提出了聚类分析和自组织映射算法在软
在自然语言文语料库的较高水平分析中,自动的词类分析是非常重要的组成部分.其中一个重要问题是,当词用于具体的上下文中时,获得正确的词类分析.提高词类分析的精确率,将导致
随着计算机和网络技术的飞速发展,数字图像、音频和视频产品越来越需要一种有效的版权保护方法,所谓数字水印就是一种嵌入到图像、视频或音频数据中的不可见标志,可以用于多媒体
伴随着Internet的蓬勃发展,电子商务正以自身高效、低成本的优势,逐步成为新兴的商业模式和理念。在线支付是电子商务应用的关键技术。基于开放的Internet平台,在现有商务框架的
目前,图像匹配是飞行器导航和制导的一个关键技术。在传统的图像特征匹配算法中,由于实际条件和成像条件的限制,基准图与实时图之间存在较大的灰度变化和几何失真,这些差异严重地
近年来,人体运动分析成为计算机视觉和图像处理技术中备受关注的一个前沿方向.其研究在虚拟现实、智能监视系统、高级用户接口、运动分析和基于模型的图像编码等方面具有广阔