面向不确定数据分类的直接区分子序列挖掘技术研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:ac8297090
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在传统的数据分类中,通常需要挖掘区分能力较高的频繁序列作为分类依据,从而为用户提供潜在的高价值信息。近年来,随着不确定数据处理需求的快速增长,挖掘不确定数据集上的区分模式正受到越来越多的关注。然而,相比传统的确定数据库,不确定数据集中存在数量庞大的可能世界,其上的挖掘工作更加复杂。目前,对于不确定数据集上区分模式挖掘的研究仅限于挖掘区分项集,而对区分序列型模式挖掘的研究工作还有待补充。针对以上问题,本文提出了一种新的算法框架,旨在处理不确定数据集上的区分序列挖掘问题。与以往区分模式挖掘算法不同,本文采用了直接挖掘的方法,有效地避免了特征生成和特征选择步骤中遇到的计算瓶颈。此外,本文算法将挖掘到的全部区分概率频繁闭序列作为结果集,由于挖掘的都是闭序列,保证了结果集的简明性和支持度信息的完整性。该算法在信息增益和期望置信度两个区分能力度量标准下挖掘概率区分频繁闭序列,然后根据挖掘出的结果集结合适合的分类算法完成数据集的分类。框架主要包括下面三个部分:(1)基于前缀增长的枚举方式进行子序列枚举,将问题转化为概率区分频繁闭模式挖掘问题。(2)将区分能力度量标准融合到闭序列挖掘的过程中,并在搜索过程中利用限界约束削减搜索空间。(3)根据挖掘出来的概率区分子序列,结合分类算法完成数据分类。在真实数据集和人工数据集上的大量实验表明,本文提出的框架有很高的算法效率和良好的可扩展性,同时保证了较高的分类准确度。
其他文献
近年来,锂硫电池(Li-S)因具有高理论能量密度(2600Wh/kg)和理论比容量(1675m Ah/g)而成为研究热点,但由于硫的导电性差、电化学过程中存在“穿梭效应”,使得锂硫电池的活性物质利用率低、循环稳定性差,这些缺点严重制约着锂硫电池的发展。为了解决上述问题,研究人员主要对电池正极材料的改进进行了研究。研究发现,将具有良好导电性及丰富孔隙的碳材料作为正极材料基体,可以提高正极材料的导电性
云计算作为目前解决大数据存储与大数据处理的主流技术得到了广泛地使用,云计算通常由巨大的虚拟化服务网络组成,其上的应用会产生大量的数据并需要云环境进行收集、整理、处
云计算、大数据等新型网络正推动着IT行业的变革,但同时也暴露出许多安全隐患。云安全问题已成为制约云计算发展的最大障碍,如何通过访问控制来保护云环境中信息安全是本文的
随着我国经济社会的迅速发展,以及人们生活水平的逐步提高,人们对保险的需求也在不断的扩大,对我国的商业保险行业的发展起到了非常大的促进作用。随着我国保险行业的快速发展,保险代理市场也逐渐的成熟了起来,在保险代理市场的发展过程中,由于对客户资源的争夺越来越激烈,保险公司与各类保险代理机构之间的矛盾也越来越深,在为保险专业代理市场的发展带来巨大隐患的同时,也对保障客户的利益造成了非常大的危害,因此保险专
超分辨率重构是指从一幅或一系列低分辨率图像通过数字图像处理的方法重建出一幅高分辨率图像的技术,该技术不仅能够增加图像的高频信息,也可消除低分辨率成像过程中产生的退
目前,人工智能快速发展,深度学习亦随之崛起,尤其是在机器学习和模式识别等领域。卷积神经网络(Convolutional neural network,CNN)结构简单,鲁棒性好,适应性强,其优异的性能
在对实际系统建模的过程中,常存在多种不确定性,比如模型误差,测量误差等,通常将其称为未建模动态.它的存在严重影响着系统的动态性能,甚至会破坏系统稳定性.消除或抑制未建
近年来,由于控制科学、计算机科学、通信工程等领域交汇融合的发展,多智能体系统协调跟踪控制研究引起了学术界和工程界的不断关注,随着研究的不断深入,有关多智能体系统协调
在水污染日益严重的背景下,为实现科学准确地治理已污染水体以及保护未污染的水资源,必须进行有效的水质检测工作,从而全面掌握水污染状况,为水资源保护提供依据和指导。目前,用于指示水体有机污染程度的常规检测指标主要包括化学需氧量(COD)和生化需氧量(BOD)。本文在前人的研究基础之上探讨了一种COD和BOD的一体化测定技术。通过活性污泥曝气降解有机物污染物的方式考察了BOD测定过程,采用控制变量的单因
随着云计算技术的兴起,云平台上的计算资源和存储资源应用的越来越普及,基于这种新型系统架构,云计算提高了应用系统的可扩展性和高可用性;其业务模型能够满足企业降低成本、