基于非负矩阵分解的时序数据聚类方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ekinhushuang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着信息工程和现代社会的迅速发展,出现了越来越多的以时间和空间为维度的数据,即时序数据。然而,时间序列数据和以往的静态数据有巨大的不同。首先它是增量型数据,时序数据往往是动态的、增量到达的,包括数据对象的增加和每个数据对象在时序上的延长。同时数据具有异构特征,例如文本、图像、关系和时间等,这些特征的数值可能在不同的量纲上,也可能有的是数值类型,有的是类别型,在聚类过程中,不能简单的相加来融合这些特征。最后,大规模数据问题,由于时序数据的规模往往是巨大的,传统的算法无法满足用户所需要的时间响应需求。现在已有的各种方法已经发展到可以针对不同类型的时间序列数据进行聚类。因为时序数据不同于传统数据的特点,使得传统的聚类方法在时序数据上面的准确率并不高。即使是算法的准确率得以保证,但是由于时间序列的高维性,使得计算的时间呈指数级递增。基于以上背景以及当前时序数据聚类所面临的问题,本文提出基于非负矩阵分解的时序数据聚类方法。通过非负矩阵分解可以描述局部信息的刻画能力来表征时序数据所含有的信息。因为非负矩阵分解独特的特征,即和其他子空间学习算法相比,其在分解过程中保留了数据局部信息,而不是全局信息。所以在本文中,采用非负矩阵分解对时间序列数据进行表示和描述,然后同时进行三个方面的改进。针对时序数据的非负矩阵分解具有收敛慢的特点,所以改进的第一点是将系数矩阵进行稀疏化,从而加快收敛过程同时达到去噪的目的;第二是在目标函数中加入一个基矩阵平滑性约束项,采用非负矩阵分解的时序数据聚类方法也就是使用新的表征方式去表达时序数据,基矩阵的列就是表示样本的模型,所以根据时序数据的连续性,要求基矩阵的列向量也具有连续性。第三是对基矩阵的列向量做差异性计算,因为基矩阵相当于一组模型的集合,他们之间具有相关性,希望列向量之间的冗余较小,即他们的差异性越大越好。实验结果验证了改进的非负矩阵分解算法在部分时间序列数据聚类上面准确率有所提高。
其他文献
随着多媒体、数据库、海量存储、网络等信息技术的高速发展,数字图像正以数以亿计的数量不断增加。在这海量的数字图像当中,如何快速的对图像进行有效的组织和分类,成为目前
现如今网站前端部分的规模不断扩大,越来越多的前端脚本代码增加到应用系统中,前端开发出现了代码规模大、组织维护困难、代码重用性低、扩展性差等问题。针对这些问题,后端
聚类分析有着十分广泛的应用,一直是模式识别、数据挖掘、图像处理等领域的研究热点之一。现有的大多数聚类算法都隐含假定待分析样本的贡献及其各维特征对聚类的贡献均匀,然
“生活无处不语文”,语文与社会生活的外延等同,语文学习不仅仅是学教材,更要开阔眼界,增强积累,让学生多读书,读好书,在感受、领悟中丰富体验,提高语言文字的品味、运用能力,增长见识。正是在这样的理念指引下,我校“三分语文”教学改革开辟了国学读本及时文教学模块。教师依据课程标准和学情,根据国标本教材的编写系统自主确定教学内容,主要采用如下三种教学方式:  1.单独选文,课堂精学,成为基础性学习的一部分
本学位论文旨在探索基于J2EE的Web服务复合技术在面向服务体系结构的系统中的应用,研究采用Web服务复合技术进行面向服务体系的应用系统开发及解决方案。本文首先阐述了Web服
湖塘实验中学的学生是不怕写作文的。因为来到这里,他们知道写作可以是生活中的一缕阳光、一缕暗香,更可以是高悬在生命坐标系上的璀璨明星。“写作,应该是热爱生活的表达方式之一。”在“三分语文”改革的引领下,湖塘实验中学开始了对写作教学的全新探索与尝试,形成了初一提倡“情趣作文”,初二写“规范作文”,初三写“创新作文”的模式,走进了各蕴其妙的“真情臻美”三境界。  一、情趣作文,情动于衷成于言  针对初一
城市供水是城市的命脉,是保障人民生活和社会进步不可缺少的物质基础。作为城市基础设施的城市给水工程,投资大,运行费用高,管理困难。而且随着供水规模的不断增大,城市给水管网的