基于高平均效用的模式挖掘算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:fendoudeying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘的主要目标是从不同类型的数据集中挖掘出重要的,有意义的,具有潜在价值的信息。频繁项集和关联规则挖掘是模式挖掘中经典的课题之一,其主要考虑项集的频繁度并对得到的项集进行关联分析。频繁项集挖掘仅考虑项集在数据集中出现的频繁度,没有涉及其他维度的信息。为发现更多有意义的模式,例如高利润的商品组合,通过综合考虑项集的数量和利润,高效用项集挖掘被提出用于挖掘出具有高效用的项集。高效用项集挖掘的缺点在于其没有考虑项集的长度,容易挖掘出无效的长模式,其中组成长模式的项的效用非常低。因此,通过综合考虑效用和长度,高平均效用项集挖掘被提出,在高平均效用的概念框架下,本文主要解决目前存在的三个问题。针对现有算法在挖掘增量式数据集时效率低下问题,本文提出了一个基于HAUP-tree树模式的算法。该算法在内存中维护一个特殊的树结构,用于保存历史数据集的必要信息。每当有新数据插入时,算法只需要对新增数据进行遍历获取必要信息,然后基于设计的快速更新策略,更新内存中的树结构,并执行挖掘算法。相比现有算法,该算法仅需要很少次数的数据集遍历就能达到和现有算法一样的挖掘效果。由于现有算法采用的上限模型过于宽松,因此本文提出了一个更加高效的算法,该算法通过设计的二个新上限模型和基于该模型的剪枝策略,减小了搜索空间,提升了项集挖掘的效率。新的上限模型从理论上保证了新算法的搜索空间小于采用旧上限模型的算法。由于现有算法都是在设置单一阈值的情况下挖掘项集,忽略了数据集中不同项的特点,容易导致稀有项解问题,即设置过大的阈值容易漏掉有意义的项集,而设置过小则又易挖掘出许多无意义的项集。针对该问题,本文提出了基于多阈值的高平均效用项集算法,该算法能够克服现有算法低效的弱点,通过设计的排序搜索树保证上限模型的向下封闭性,并基于优化的平均效用表结构设计剪枝策略,减小搜索空间,避免现有算法频繁扫描数据库的缺点。本文针对性的解决了高平均效用项集中的三个基本问题,并设计和运行大量实验验证了本文所提出算法的有效性,其均能克服现有算法的缺点,达到更高效更节省内存的目标。
其他文献
在企业级翻译流程中,为提高翻译人员的翻译效率,通常会使用辅助翻译工具(CAT)进行辅助翻译。市场上常见的辅助翻译工具,一般将优化的关注点放在如何完善辅助翻译记忆库、改进
随着科学技术的进步,视频监控技术应用的领域已经扩展到人们生活的方方面面。由于成像器材或硬件的限制,在恶劣条件下获取的视频监控图像往往会含有噪声并且分辨率较低,所以
基础设施即服务云(IaaS云)将计算、存储等资源整合成虚拟机,通过网络提供给用户使用,提升了资源利用率,降低了计算成本。IaaS云的性能评价有助于云提供商对平台做出调整,提高
“中国制造2025”的提出,促使着制造业竞争更加激烈,提高自身的竞争力成为制造业共同面临的关键问题。所有企业都在寻找一切可以提高自身的方法,找到自身存在的问题并解决这
人脸识别是目前身份识别技术中最具代表性的方法之一,有着重要的研究价值。人脸识别首先对输入的图像进行人脸检测,然后对检测到的人脸面部特征进行提取,最后再依据提取的特
网络路由是计算机网络的基本功能,设计一种扩展性好、效率高的路由机制,一直是网络通信领域的研究热点。网络路由包括网络拓扑的表达、获取和选路,本论文集中研究前两个内容
为了应对回转运动的机电伺服系统中广泛存在的时变周期干扰,本文研究基于迭代学习的时变周期干扰控制问题。以双轴速率转台的俯仰轴为对象,研究了位置域迭代学习控制方法,提
当前的互联网架构存在安全性不足、可扩展性较差和服务质量不佳等诸多缺陷,973项目“一体化可信网络与普适服务体系基础研究”中构建新型互联网来解决这些问题。其中的新型互
电磁超材料不能在自然界中直接获取,只能通过人工复合材料合成,具有特异性质。在这种新型材料被理论与实验验证后,对其应用的研究才得以陆续开展。随之即出现了大量如滤波器
车间调度是制造业不容忽视的重要组成部分,如何使用有效方法优化调度,从而改变原有生产管理方式,进而提高企业生产水平乃至竞争力,一直以来都是人们关注的重要课题。本文主要