【摘 要】
:
序列挖掘一直为数据挖掘中一个非常重要的分支,从Agrawal和Srikant在1995提出序列的概念之后,越来越多的学者投入到这个课题的研究。随着数据挖掘相关技术的发展,数据挖掘将
论文部分内容阅读
序列挖掘一直为数据挖掘中一个非常重要的分支,从Agrawal和Srikant在1995提出序列的概念之后,越来越多的学者投入到这个课题的研究。随着数据挖掘相关技术的发展,数据挖掘将会在更多领域发挥巨大的作用。在面对大数据,无法将需要挖掘的数据放在一台物理机器上时,如何进行序列挖掘。现有的不少并行挖掘算法需要产生候选模式,还有一些算法虽然不会产生候选模式,但都依赖于机器实际的物理内存,一旦需要挖掘的数据超过机器的物理内存,将无法进行挖掘。本文的主要工作如下:(1)根据目前的了解,本文第一次提出基于垂直切分挖掘频繁闭序列这个概念,原本序列挖掘算法时间复杂度都是由数据的列数决定,减少数据的列数就能很大程度减少挖掘时间。本文采用序列求交的方式,缩短序列的长度,这相当于在竖直方向将原始序列分割成较短的序列。再从求交结果中选出K条差异度最大的序列,这又使得序列之间列数差异较大,两步均可相当程度上缩短挖掘时间。(2)在大数据环境中,大部分序列挖掘都会压缩数据集,使得尽量在小规模或者具有代表性的数据集上进行挖掘工作。本文提出压缩频繁模式的观点,压缩模式的好处在于减小了频繁闭模式枚举范围,缩短挖掘时间,减小算法的时间复杂度。(3)本文改进了序列挖掘算法基于内存递归挖掘这一特点,考虑到大数据场景下实际的数据很大程度上无法放入机器的物理内存,本文采用一个任务挖掘一次固定长度频繁闭序列,即在压缩后的模式上枚举固定长度闭序列,这样做虽然没有递归挖掘高效,但很好的解决了数据无法放入内存中挖掘的问题。(4)本文采用现阶段最流行的并行框架Hadoop实现频繁闭序列挖掘算法。充分利用Hadoop的并行特点,将海量数据分散存储到集群中的各个节点上,按照map函数、reduce函数的特点编写算法,因为枚举出的模式独立的分发到不同节点进行检测封闭性,因此本算法获得较高的加速比。
其他文献
风能是现代社会最重要的可再生能源之一,风能的主要利用形式是风力发电,风机叶片是捕获风能并将其转化为电能的主要部件,由于大多数的风电机组工作环境复杂恶劣,且长期承受交变负荷作用,使得在役风机叶片容易出现故障,从而降低风机发电效率、造成安全生产隐患,因此对风机叶片表面故障进行检测和识别显得尤为重要。针对风机叶片故障诊断中存在的问题,本文分析了现有诊断方法特点,结合基于深度学习的图像识别新技术和无人机巡
近年来,以化石能源为主体的能源体系面临的能源短缺、环境污染等问题日益突出,传统能源向新能源转型是社会发展的必然趋势。风力发电以其技术成熟、发电成本低、清洁度高等优点在我国能源结构中占据重要地位,得到快速发展。由于风能资源和负荷中心地理位置错配,大规模风电经特高压直流(UHVDC)输送是促进风电消纳的有效手段。当特高压直流输电系统发生连续换相失败等严重故障时会导致直流闭锁,进而引发送端风电场的高电压
本论文由三个部分组成:源语文本、中文译文以及基于此次翻译所撰写的翻译实践报告。本次翻译实践的源语文本摘自著名游戏设计师乔治·卡姆波茨所著之《教育游戏设计基础——内在激励学习体验之旅》。该书主要讲述教育游戏设计及其带来的影响。作者在第三章中阐释了行为主义、认知主义、建构主义等教学理论,分析了教育理论对教育游戏设计产生的影响,即设如何设计出符合要求的游戏。作者在这一章节中先是提出相关概念,再分析其对教
目的:探究住院儿童应用抗生素治疗后肠道菌群是否出现改变以及影响肠道菌群变化程度的可能因素;分析过敏儿童过敏性疾病的患病特征,比较过敏与非过敏儿童婴儿期影响肠道菌群相关因素的暴露情况,分析儿童过敏性疾病发病的危险因素,探讨过敏性疾病的发生与影响婴儿期肠道菌群相关因素的相关性。方法:1.选取2019年10月1日至2020年1月1日期间于天津市儿童医院普内科病房住院并需应用抗生素治疗的儿童,依据纳入及排
网络虚拟化是一种在物理网络上实现多个逻辑独立的虚拟网络的技术,将网络虚拟化技术和软件定义网络(SDN)结合,可以极大提高网络的灵活性。网络虚拟化Hypervisor(NVH)作为一个
探索式搜索描述了用户对自己想要搜索的目标领域不熟悉,或者用户进行比较复杂的搜索任务时的行为。用户在进行探索式搜索过程中,有时会发现,通过其他算法给出的查询推荐,找不
当前,POI(Point of Interest)推荐技术已经在基于 LBS(Location-Based Service)的移动导航系统中广泛应用。它实时感知用户当前的位置信息,利用用户即时给出的偏好集或者历史
随着网络技术的飞速发展,我国的互联网规模越来越大,其中IP地址的流量行为也越来越复杂,如何对IP地址的流量行为进行效的观测与描述成为了各研究机构的关注热点。目前针对IP
成册文档是指装订成册的书目、资料等印刷材料。成册图像的扫描是通过人工翻页并由摄像机进行采集。在成册图像扫描过程中,由于文档的摆放位置的不同可能会造成的文档图像倾
近年来,随着人们生活水平的提高,对海产品的需求量增大,工厂化循环水养殖蓬勃发展。在循环水养殖中,多采用生物方法去除有机物和氮盐等有害物质,其中生物膜法因其具有高效的微生态系统和强抗冲击能力等诸多优势而获得广泛应用,移动床生物滤器(MBBR)是循环水养殖系统水处理过程中的核心单元。地下海水水质良好且供水稳定,是我国海水工厂化养殖的重要水源之一,由于地下水还原性强,且具有较低的p H,使得地下水铁锰离