基于时间序列分析的查询处理技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:ssskstar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的发展,“大数据”时代已经到来。信息规模越来越大,数据传播呈现出爆发之势,现代社会已步入信息高速发展的时期。与此同时,人们获得数据的方式方法越来越多,数据量具有前所未有的增长速度。而时间序列在各种数据中是一种重要的数据类型。时间序列可以反映受监测事物的状态,它是对某个物理量进行等时间间隔观测所得的数值序列。时间序列数据的采样点具有连续性和数值特性,整个时间序列可以被看成是一个整体的数据对象。时间序列在诸多领域有着广泛的应用,比如多媒体应用、医学检测技术、语音识别与处理、经济金融分析研究、天文、物理、地理等。与此同时,时间序列具有海量性、维度高、结构复杂、存在噪声、存在相似性变形等特性,这些特性使得时间序列数据挖掘研究工作充满了挑战。时间序列数据查询技术同一般的数据查询技术任务类似,其目的为了更好的挖掘、抽取得到用于分析和应用的知识表示。数据挖掘、机器学习等技术的根本任务为设计相应的模型和算法,使得计算机获得智能的感知、理解和识别等能力。在过去的几年里,大量的科学工作者致力于面向时间序列特征的查询技术的研究工作。虽然时间序列数据挖掘工作取得了许多研究成果,但是由于时间序列数据的复杂特性,在实际应用中,面向时间序列特征的查询技术仍然面临着很多新的问题和很多亟待解决的关键问题。首先,根据不同的应用场景,时间序列数据有不同的表现形式,例如,时间序列可表示为,一维音乐数据,多维音乐数据,医学数据流数据,语音数据等形式,如何有效地表示不同类型的时间序列是一个亟待解决的问题。其次,为了满足高效地查询检索应用,如何在时间序列数据上实现准确地相似度量及构建高效的索引仍然是一个难题。此外,如何有效地解决时间序列在新的应用场景下的技术难题,例如语音情感模糊识别,也是本文面临的一个主要挑战。为了解决上述问题,本文深入研究了时间序列近似表示方法、时间序列相似性度量方法和时间序列聚类方法。并在此基础上,针对四种不同的时间序列数据:一维音乐数据,多维音乐数据,医学数据流数据,语音数据,分别研究了一维和多维音乐数据的检索技术,可穿戴传感器异常检测技术,以及语音情感模糊识别技术并提出了相应的解决办法。具体地,本文的研究内容分为以下四个部分:(1)面向时间序列特征的一维音乐数据检索技术提出了一种新的音乐哼唱快速检索技术,该技术根据音乐的语句特征划分语句片段,提取出位置特异性得分矩阵,从而实现哼唱音乐的快速检索。该方法根据哼唱音乐特征,将音乐数据库和用户提供的哼唱片段,按自然停顿方式划分音乐的语句,同时使用K-means聚类算法对音乐的语句片段进行音高相似性计算,并根据聚类情况提取出位置特异性得分矩阵。此外,基于位置特异性得分矩阵提出NA匹配算法,顺序前瞻计分SLS算法和置换矩阵前瞻计分PLA算法,通过真实数据集实验表明,SLS算法和PLA算法能够实现快速有效的哼唱音乐检索结果。(2)面向时间序列特征的多维音乐数据检索技术该技术将音乐数据视为多维时间序列,提出用于多维序列匹配的距离函数MDTW和子序列匹配方法MDTWsub。音乐数据由二维时间序列表示,其中每个维度分别保存关于每个音符的音高或持续时间的信息。为了提高效率,利用倒排表和q-gram技术对音乐数据库进行处理,并利用q-chunk技术对哼唱曲目进行处理。提出TopK-Brute和TopK-LB算法来搜索Top-k歌曲。实验结果证明了提出的方法有效性和高效性。(3)面向时间序列特征的可穿戴传感器异常检测技术在医学领域,时间序列同样大量而广泛的存在。针对医学领域中可穿戴传感器监测设备,提出了一种医学无线传感器的异常数据检测算法。此时数据是按照时间先后顺序排列各个观测的医学记录。提出了 BF、ET和PF三种算法来检测异常情况,在真实患者数据集上的实验结果表明,所提出的方法在保持合理的报警精度和召回率的同时,能够有效地检测病人的异常情况。(4)面向时间序列特征的语音情感模糊识别技术研究了模糊聚类的相关理论,利用不同数据集的聚类半径提出了语音情感识别的自适应模糊聚类算法。由于情感信息本身的语义变量具有模糊性和不确定性,很难准确地识别出情感状态。本文研究了基于语音情感的语音情感识别方法的自适应模糊C均值算法SEAF。实验结果表明,模糊加权指数对SEAF算法性能的影响,发现SEAF比FCM具有更好的识别效果,SEAF算法的抗噪声性能优于FCM。本文提出的算法具有良好的语音识别性能,具有良好的适用性和可扩展性,设计简单易行。
其他文献
近年来,云计算已经成为一种新的计算和服务模式,并在人们的工作和生活中得到了广泛的应用。它使得软件作为一种服务而更具有吸引力,并且改变了 IT硬件的设计和购买方式。开发人员和企业无需对硬件资源或人力资源投入大量的资本以部署和使用软件。在云计算环境下,用户的数据外包给不完全可信的云计算服务提供商进行存储和处理,这使得用户失去了对数据的物理控制。云计算服务提供商可能在未经授权的情况下,恶意伪造、篡改或者
熔盐电解法是有色金属冶炼的重要方法,特别是对于轻金属冶炼而言,是工业生产的基本方法。电解槽是熔盐电解工艺过程的核心设备,槽内存在高温电化学反应和宏观多相流体流动,是一种典型的非线性、多物理场耦合的复杂冶金过程。阳极过程是代表性过程,它涉及在固-液界面产生阳极气体形成多相反应体系,又涉及阳极气泡和电解质的宏观流动等复杂的物理过程。阳极过程中的气泡行为对电解过程影响重大,一方面引发额外压降增加能耗,甚
抚顺西露天煤矿是亚洲第一大露天矿,在矿山不断开采的过程中,边坡逐渐变陡加深,易出现失稳,甚至滑坡。加之其地理位置的特殊性—位于抚顺市中心城区,边坡的稳定性问题已经成为现阶段制约矿山和抚顺市可持续发展的主要因素。西露天矿南帮边坡属于深大顺层边坡,边坡内部含有软弱夹层,边坡中部存在F5断层,对边坡西侧有约束解除作用。由于矿山的非对称开挖,导致边坡东西两侧潜在的滑坡体厚度不一致。而坑底的非对称回填则使得
齿轮传动广泛应用于各类机械装备中,是主要的机械传动形式。齿轮传动系统在高速、重载等恶劣的工况下,容易发生静强度失效和疲劳失效等多种失效形式,其工作性能直接影响机械装备的工作可靠性和使用寿命。因此,对齿轮传动系统进行可靠性分析与评估是确保机械装备稳定可靠运行的关键。传统的齿轮系统可靠性模型多是建立在各零部件独立失效的假设条件下的静强度可靠性模型,并且获取零部件初始强度信息难,多数模型并不便于工程上的
随着卫星通信和传统地面通信业务及网络融合趋势日益明显,特别是星间链路的出现和星上处理能力的增强,使得空间节点间彼此互联成为未来空间通信的发展趋势和必然要求,也使得研究并建设基于协作传输的空间信息互联网势在必行。未来的空间信息互联网将是以空间平台为主要载体实时获取、传输和处理空间信息的通信网络,通过星间、星地链路连接在一起的不同轨道、种类、性能的空间节点,不仅向下可支持对地观测的高动态、宽带实时传输
超级电容器是一种新型的储能器件,具有环境友好、充放电速度快及循环稳定性高等特点,有广阔的应用前景。但与锂离子电池及燃料电池等相比,其能量密度还有待提高。超级电容器的能量密度E与其比电容C和工作电压U有关(E=1/2CU2),因此可通过提升比电容和工作电压提高超级电容器的能量密度。在非对称型超级电容器中,正、负电极在不同的电位区间内储能,组装非对称超级电容器是提高工作电压的有效途径。一般来说,超级电
多级库存控制是供应链库存管理的主要形式,因其在供应链管理中的重要性而受到国内外学者的广泛关注。以冶金、石化行业为代表的流程工业以其高投入、高成本、高资源占用率等特点,对工业化进程中起到关键作用。流程工业的供应链中含有大量间歇性生产过程,生产时间长,视为订单触发的离散系统;而销售环节中订单随时可达,处理时间相对很短,视为时间连续系统,二者相结合呈现混杂系统(Hybrid system)的特征,是一类
无线传感器网络覆盖决定了无线传感器网络所能提供的服务范围,是实现无线传感器网络众多应用的前提。而覆盖优化是无线传感器网络的主要支撑技术之一。因此,本文在分析总结国内外相关研究的基础上,对无线传感器网络覆盖的优化方法进行了深入地研究,主要研究内容和成果体现在以下几个方面:针对无线传感器网络的区域覆盖漏洞修复问题,本文首先考虑了传感器的更贴近于实际应用的基于误警率的概率感知模型。针对网络服务质量的要求
数据驱动的故障诊断近年来被广泛研究,非高斯分布特性广泛存在于现代工业过程数据中,传统基于高斯分布假设的数据驱动方法在面对具有这类特性的数据时不再适用。本文将非高斯过程作为研究对象,研究了故障诊断中的检测、诊断、辨识三个问题及其在电熔镁炉故障诊断中的应用,主要研究内容包括:一、针对非高斯过程故障检测难问题,研究了独立元高斯分布变换方法及基于此变换的故障检测指示量和控制线。对比主元与独立元高斯变换的结
近年来,随着科技的不断进步,计算机在实际中得到广泛的应用。由于计算机应用的普及,使得通信技术和控制技术得以快速发展,被控对象规模越来越大、结构越来越复杂、控制难度越来越高。传统的控制策略已不能够满足现代生产所需要的控制需求。而网络化控制不同于传统的控制方法,它将有线或无线网络、智能传感器、数字通信技术等现代手段与计算机网络结合起来,成为现代控制理论中先进的控制技术。网络化控制以自身优势目前广泛地应