【摘 要】
:
随着大数据时代的到来,广泛的资源共享带来了数据的指数级增长,人们对Web个性化服务、智能推荐等需求也越来越大,如何通过Web挖掘获取用户的兴趣是至关重要的。Web使用挖掘通过挖掘网页中用户的访问信息来分析用户的兴趣偏好和行为模式,从而提高推荐系统的推荐质量。Web用户聚类通过分析用户的访问行为,把浏览行为相似的用户划分为一类,进而更精确地为用户提供个性化服务。在传统的聚类算法中,类与类划分的界限是
论文部分内容阅读
随着大数据时代的到来,广泛的资源共享带来了数据的指数级增长,人们对Web个性化服务、智能推荐等需求也越来越大,如何通过Web挖掘获取用户的兴趣是至关重要的。Web使用挖掘通过挖掘网页中用户的访问信息来分析用户的兴趣偏好和行为模式,从而提高推荐系统的推荐质量。Web用户聚类通过分析用户的访问行为,把浏览行为相似的用户划分为一类,进而更精确地为用户提供个性化服务。在传统的聚类算法中,类与类划分的界限是确定的,但在现实生活当中,类边界的划分是模糊的,因此基于模糊粗糙的聚类在现实生活中得到广泛应用,是当前聚类研究的主流趋势。目前,大多数的Web日志挖掘是基于访问频率的,其挖掘的信息没有太大的价值。而本文提出的两种改进的聚类技术是基于访问时间的,使用模糊向量表示用户浏览模式,记录用户是否浏览过该页面以及停留的时间。本文在模糊粗糙k-均值聚类方法的基础上提出了两种改进算法,主要所做工作如下:(1)针对模糊粗糙k-均值收敛速度慢的问题,本文将模糊粗糙k-均值和夹角余弦相结合,提出了一种双层聚类技术。通过一系列实验,论证了该聚类方法的可行性,而且,使用Davies-Bouldin指标验证了该算法的聚类效果并与其它聚类算法进行了比较。(2)由于模糊粗糙k-均值需要人为设定聚类数,且初始聚类中心是随机的,所以,聚类结果不太稳定。对此,本文对聚类数和聚类中心的设定进行了改进,先使用夹角余弦值确定较优聚类数,然后,通过夹角余弦相似度优化了初始聚类中心。实验结果表明,该算法减少了迭代次数,提高了聚类效率。(3)由于数据量大时,改进的这两种算法仍然存在算法效率低的问题。因此,使用MapReduce实现了两种改进聚类算法的并行化,并进行了相关实验,实验结果表明这两种算法具有较好的扩展性和加速比。
其他文献
三维网络陶瓷/铁基复合材料兼具陶瓷和铁基体的优异性能,即陶瓷的高硬度和高耐磨性以及铁基体良好的强度和韧性,所以得到人们的广泛关注。相比传统的耐磨材料,这种复合材料拥
半导体光催化技术凭借低能耗、无二次污染和经济性高等优势,在解决水体污染方面被寄予厚望,然而光能利用率低和光生电荷高复合等问题严重阻碍了该技术的发展。因此推进传统半
鸣唱是由鸟在繁殖期内发出的较长的、相对复杂的鸣声,是物种识别的重要标志。鸟类的鸣唱包含着丰富的生物学信息,其功能包括保卫领域,吸引异性。环境因素与迁徙行为可能会影
含氟膦酸酯类化合物以及不饱和羰基化合物都广泛存在于各种天然产物的结构之中,具有良好的生理活性,在医药,农药等领域都表现出了很大的应用前景。因此,关于它们的合成应用研
本文主要研究具有次临界增长的分数阶Laplacian型Henon方程在环上多解的存在性,以及具有临界增长的分数阶Laplacian型Henon方程在有界区域上解的存在性.在第一章中,我们简要
近些年随着纳米材料的兴起,对微观物质世界的探索一直是研究领域的前沿课题。在纳米尺度,材料往往能够表现出不同于体块材料的物理和化学性质,因此制备纳米材料成为研究材料
土壤镉污染严重影响我国的农业生产和食品安全。油菜是我国重要的油料作物,也是一种可行的土壤修复植物。硫化氢(H2S)作为一种气体信号分子,对植物的生长发育和环境胁迫响应过程具有重要的调控作用,但其调控油菜应对镉胁迫的作用机理还不清晰。因此,研究H2S增强油菜耐镉性的机理具有现实意义。本论文主要研究镉胁迫下经硫化氢(H2S)供体NaHS预处理油菜幼苗的生物量变化情况、叶绿素含量变化情况以及对镉在油菜体
聚合物材料在使用过程中,难免会受到外界应力,光照、温度等因素影响,使材料的力学性能下降甚至无法使用,因此如何延长材料的使用寿命一直是人们面对的巨大问题。因此,维持材
由碳原子以六角型蜂窝晶格结构组成的单原子厚度的二维碳纳米材料—石墨烯,凭借其优良的性能和广泛的应用前景,成为多年来科研工作者们的研究重点。目前的化学气相沉积法和氧
在不确定性内外环境影响下,近年来我国企业不断发生债券违约、巨亏、“爆雷”、破产等财务危机事件。例如,由于2017年、2018年连续两个年度报告被会计师事务所出具无法表示意