面向热点话题时间序列的有效聚类算法研究

来源 :第29届中国数据库学术会议 | 被引量 : 0次 | 上传用户:phlok1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类热度时间序列是揭示和建模网络热点话题形成与发展的重要过程.Leskovec等人在2010年提出面向话题时间序列的K_SC聚类算法,其精确度较高且能较好地刻画话题内在发展趋势特征.但K_SC算法具有对初始类矩阵中心高度敏感、高时间复杂度等特性,使其难以在实际高维大数据集上应用.文中结合小波变换技术,提出一个新的迭代式聚类算法WKSC,主要提出两个创新:(1)用Haar小波变换将原始时间序列进行压缩,降低原始时间序列的维度,从而降低了算法的时间复杂度;(2)在Haar反小波变换中,将低维聚类返回得到的矩阵中心作为高维聚类的初始矩阵中心,在迭代聚类过程中优化了对初始矩阵中心高敏感性的问题,提高了聚类的效果.文中分别采用国内外3个数据集作为测试样本,进行了大量的实验.实验结果表明WKSC算法能显著降低聚类的时间复杂度,同时改进聚类效果.WKSC算法可很好的应用于大量高维热点话题的模式分析.
其他文献
  社会媒体应用已成为Web应用的主流,以用户为中心并且海量媒体数据由用户自生成是社会媒体Web应用的重要特征。应对目前社会媒体环境中信息过载的问题,信息的共享和推荐机制
会议
1 选育经过青平 1号 (暂定名 )油桃是 1992年在平度市麻兰镇大孙戈庄村 3年生早美光油桃园中发现的一优良变异株。当年夏季采芽嫁接苗木 170 0株 ,1993年建园12 hm2 。 1996
作为多目标决策的重要手段之一,Skyline节点查询在传感器网络应用中发挥着非常重要的作用.文中深入地分析了Skyline节点查询的性质,提出了基于过滤的Skyline节点连续查询算法
会议
北京市吸取我国几个地区医院发生柯萨奇B组病毒医院感染的教训,认真抓好感染的监、控、管和早期诊断工作,以在全市最大限度避免柯萨奇病毒医院感染的发生。
该文提出了一种基于维基百科结构信息的语义关联度的计算方法--WikiStruRel(WSR).维基百科作为目前规模最大和增长最快的在线百科系统,其典型包括两个网状结构:文章网络和分类
会议
根据建筑物重要性、使用性质、发生雷电事故的可能性和后果,按防雷要求分为3类,对于屋面防雷网格规范有严格要求.第一类防雷建筑物防雷措施是在整个屋面组成不大于5m×5m或6m
期刊
近年来,随着我国市场经济的不断发展,我国的现代化建设也进入了一个新的历史时期.在这一时期,我国的各项事业均得到了飞速的发展,尤其是建筑行业.城市化进程的加快,在为建筑
期刊
  当前很多的数据管理应用都需要从多个数据源集成数据,每个数据源都会提供一组值,并且不同的数据源常常提供相互冲突的数据值。为了提供给用户高质量的数据值,关键是数据集成
1.技术背景rn钢筋在施工现场长期堆放的情况下,会造成钢筋端头的螺纹受到污染,尤其是在混凝土浇筑完成后,极有可能污染裸露在外的钢筋螺纹牙丝,所以钢筋端头的螺纹牙丝在加工
期刊
  文中首先基于可能世界模型提出了不确定图的最可靠最大流问题和可靠性计算模型,这对于构建可靠性网络、可靠传输路径选择以及系统薄弱环节分析等一系列实际问题具有重要
会议